美女裸乳裸体无遮挡的网站,色欲色色色色色色天天影视

“GPT-5對人類的阿諛奉承減少了”

來源：第一財(cái)經(jīng)作者：鄭栩彤2025-08-08 11:22

當(dāng)?shù)貢r(shí)間8月7日，OpenAI終于推出了基礎(chǔ)大模型更新，GPT-5面世了。

“這是我們迄今為止最智能、最快、最有用的模型，有內(nèi)置思維能力，可以將專家及智能交到每個(gè)人手中?！監(jiān)penAI表示，這款模型在編程、數(shù)學(xué)、寫作、健康、視覺智能等領(lǐng)域有最先進(jìn)的性能，且知道何時(shí)應(yīng)該快速響應(yīng)、何時(shí)應(yīng)該思考更長時(shí)間。目前GPT-5可供所有用戶使用，但免費(fèi)用戶還需要等待幾天時(shí)間才能使用完整的推理功能，Plus訂閱用戶則能訪問GPT-5 pro。

“感謝我們在微軟、英偉達(dá)、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作，讓這（GPT-5推出）成為可能?！監(jiān)penAI CEO山姆·奧爾特曼（Sam Altman）表示。

在編碼方面，用戶只需要提示，GPT-5就能生成網(wǎng)站、應(yīng)用程序和游戲。在OpenAI展示的案例中，要求創(chuàng)建一個(gè)滾球小游戲，在提示詞中提到游戲的目的是讓球越過障礙物、提高速度并提供有趣的聲音、角色卡通等，就能生成一個(gè)簡單的小游戲。

在寫作方面，GPT-5可以用于起草和編輯報(bào)告、電子郵件、備忘錄等。根據(jù)OpenAI的演示，輸入相同的提示詞，要求GPT-4o和GPT-5一首能體現(xiàn)感情的短詩，描述京都的一名寡婦不斷在各種地方發(fā)現(xiàn)已故丈夫的襪子。記者將同樣的提示詞輸入DeepSeek，可以看出，GPT-5和DeepSeek-R1生成的短詩更具有畫面感和意象，情感表達(dá)更加細(xì)膩，語句也更加通順。

從基準(zhǔn)測試的表現(xiàn)可以看出GPT-5的實(shí)力。GPT-5（無工具、進(jìn)行思考）和GPT-5 pro（用python）在AIME2025（競賽數(shù)學(xué)）基準(zhǔn)測試中的得分分別為94.6%、100%，o3（用python）得分98.4%。在FrontierMath1-3級（專家級數(shù)學(xué)）基準(zhǔn)測試中，GPT-5（無工具、進(jìn)行思考）和GPT-5 pro（用python）得分分別為13.5%、32.1%，o4-mini（用python）得分為19.3%。在GPQA Diamond（博士級科學(xué)問題）基準(zhǔn)測試中，GPT-5（無工具、進(jìn)行思考）和GPT-5 pro（用python）得分分別為85.7%、89.4%，超過o3（無工具）的83.3%。在Humanity‘s Last Exam（跨學(xué)科專家級問題）基準(zhǔn)測試中，GPT-5（無工具、進(jìn)行思考）和GPT-5 pro（用python和搜索）得分分別為24.8%、42%，超過o3（用python和搜索）的24.3%。

此外，GPT-5（進(jìn)行思考）在SWE-bench（軟件工程）、Alder Polyglot（多語言代碼編輯）基準(zhǔn)測試中的得分分別為74.9%、88%，超過o3在這兩項(xiàng)測試中的得分69.1%、79.6%，顯示GPT-5有更強(qiáng)的編碼能力。在MMMU（學(xué)院水平視覺問題）和VideoMMMU（基于視頻的多模態(tài)推理）基準(zhǔn)測試中，GPT-5（進(jìn)行思考）得分分別為84.2%和84.6%，超過o3的82.9%和83.3%，顯示GPT-5有更強(qiáng)的多模態(tài)能力。據(jù)OpenAI介紹，GPT-5在遵循指令、使用代理工具方面的能力也超過了o3，在使用GPT-5進(jìn)行推理時(shí)，GPT-5在大約一半的情況下能表現(xiàn)得比專家更好。

此外，GPT-5不僅表現(xiàn)優(yōu)于o3，在視覺推理、代理編碼和研究生水平科學(xué)問題解決場景下，GPT-5輸出的token（詞元）數(shù)量還減少了50%~80%。GPT-5出現(xiàn)幻覺的概率也低于以往的模型，在使用網(wǎng)絡(luò)搜索時(shí)出現(xiàn)錯誤事實(shí)的概率比o4低45%，思考時(shí)出現(xiàn)錯誤事實(shí)的概率比o3低80%，在無法回答問題時(shí)GPT-5不會太過“自信”，而是會向用戶承認(rèn)自身局限性。OpenAI稱，GPT-5的幻覺率只有o3的六分之一，這標(biāo)志著大模型生成準(zhǔn)確且長篇的內(nèi)容已取得明顯進(jìn)步。

OpenAI還表示，GPT-5對人類的“阿諛奉承”減少了。此前OpenAI推出4o模型，發(fā)現(xiàn)該模型對人類太過“阿諛奉承”，研發(fā)團(tuán)隊(duì)通過改進(jìn)訓(xùn)練等方式，使GPT-5在相關(guān)評估中“阿諛奉承”的概率從14.5%降至6%以下，讓GPT-5在對話中的表現(xiàn)更像人類的“朋友”而不是一個(gè)“人工智能”。

定價(jià)方面，GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服務(wù)，GPT-5的輸入、輸出價(jià)格分別為每百萬token 1.25美元、10美元，GPT-5 mini每百萬token的輸入、輸出價(jià)格為0.25美元、2美元。低于GPT-4.1每百萬token的輸入、輸出價(jià)格3美元、12美元，也低于o4-mini每百萬token的輸入、輸出價(jià)格4美元、16美元。

從推出節(jié)奏看，2022年11月，OpenAI推出ChatGPT，2023年3月推出GPT-4，兩者之間間隔只有數(shù)月時(shí)間。而從GPT-4推出到GPT-5面世，則有大約兩年半的時(shí)間間隔。OpenAI在基礎(chǔ)大模型方面的更新雖然有所放緩，但在GPT-4和GPT-5之間，OpenAI還推出了4o、o1、o3、o4系列，探索大模型在推理方面的能力。此次，OpenAI還透露，ChatGPT在全球已有超7億用戶。

不過，GPT-5在部分基準(zhǔn)測試中的得分，與OpenAI前代模型的差距并沒有很大。在直播演示時(shí)，GPT-5出現(xiàn)過一個(gè)圖表錯誤，隨后山姆·奧爾特曼在社交媒體上承認(rèn)了這個(gè)錯誤。GPT-5的能力能否代表最先進(jìn)的人工智能水平也受到馬斯克的質(zhì)疑。

GPT-5發(fā)布后，大模型公司xAI一名聯(lián)合創(chuàng)始人在社交媒體上表示，看到GPT-5發(fā)布，他感到非常自豪，因?yàn)閤AI團(tuán)隊(duì)規(guī)模小很多，但在很多方面都領(lǐng)先，Grok 4在ARC-AGI等基準(zhǔn)測試中的表現(xiàn)超過GPT-5，xAI還將在接下來幾周展示更多新進(jìn)展。特斯拉CEO馬斯克評論了這條帖子稱“做得好（Great Work）”，并表示Grok 4在ARC-AGI中擊敗了GPT-5。

責(zé)任編輯：陳勇洲

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號，即可隨時(shí)了解股市動態(tài)，洞察政策信息，把握財(cái)富機(jī)會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場