深爱激情丁香五月天|亚洲毛片一区二区三区|女同久久另类99精品国产91|国际精品模特久久久|精品久久不卡一本|啪啪视频一区二区|日不卡ssssss|日韩精品第一区第二区三区|美国av片在线免费观看|最新天堂av在线

“GPT-5對人類的阿諛奉承減少了”
來源:第一財(cái)經(jīng)作者:鄭栩彤2025-08-08 11:22

當(dāng)?shù)貢r(shí)間8月7日,OpenAI終于推出了基礎(chǔ)大模型更新,GPT-5面世了。

“這是我們迄今為止最智能、最快、最有用的模型,有內(nèi)置思維能力,可以將專家及智能交到每個(gè)人手中?!監(jiān)penAI表示,這款模型在編程、數(shù)學(xué)、寫作、健康、視覺智能等領(lǐng)域有最先進(jìn)的性能,且知道何時(shí)應(yīng)該快速響應(yīng)、何時(shí)應(yīng)該思考更長時(shí)間。目前GPT-5可供所有用戶使用,但免費(fèi)用戶還需要等待幾天時(shí)間才能使用完整的推理功能,Plus訂閱用戶則能訪問GPT-5 pro。

“感謝我們在微軟、英偉達(dá)、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,讓這(GPT-5推出)成為可能?!監(jiān)penAI CEO山姆·奧爾特曼(Sam Altman)表示。

在編碼方面,用戶只需要提示,GPT-5就能生成網(wǎng)站、應(yīng)用程序和游戲。在OpenAI展示的案例中,要求創(chuàng)建一個(gè)滾球小游戲,在提示詞中提到游戲的目的是讓球越過障礙物、提高速度并提供有趣的聲音、角色卡通等,就能生成一個(gè)簡單的小游戲。

在寫作方面,GPT-5可以用于起草和編輯報(bào)告、電子郵件、備忘錄等。根據(jù)OpenAI的演示,輸入相同的提示詞,要求GPT-4o和GPT-5一首能體現(xiàn)感情的短詩,描述京都的一名寡婦不斷在各種地方發(fā)現(xiàn)已故丈夫的襪子。記者將同樣的提示詞輸入DeepSeek,可以看出,GPT-5和DeepSeek-R1生成的短詩更具有畫面感和意象,情感表達(dá)更加細(xì)膩,語句也更加通順。

從基準(zhǔn)測試的表現(xiàn)可以看出GPT-5的實(shí)力。GPT-5(無工具、進(jìn)行思考)和GPT-5 pro(用python)在AIME2025(競賽數(shù)學(xué))基準(zhǔn)測試中的得分分別為94.6%、100%,o3(用python)得分98.4%。在FrontierMath1-3級(專家級數(shù)學(xué))基準(zhǔn)測試中,GPT-5(無工具、進(jìn)行思考)和GPT-5 pro(用python)得分分別為13.5%、32.1%,o4-mini(用python)得分為19.3%。在GPQA Diamond(博士級科學(xué)問題)基準(zhǔn)測試中,GPT-5(無工具、進(jìn)行思考)和GPT-5 pro(用python)得分分別為85.7%、89.4%,超過o3(無工具)的83.3%。在Humanity‘s Last Exam(跨學(xué)科專家級問題)基準(zhǔn)測試中,GPT-5(無工具、進(jìn)行思考)和GPT-5 pro(用python和搜索)得分分別為24.8%、42%,超過o3(用python和搜索)的24.3%。

此外,GPT-5(進(jìn)行思考)在SWE-bench(軟件工程)、Alder Polyglot(多語言代碼編輯)基準(zhǔn)測試中的得分分別為74.9%、88%,超過o3在這兩項(xiàng)測試中的得分69.1%、79.6%,顯示GPT-5有更強(qiáng)的編碼能力。在MMMU(學(xué)院水平視覺問題)和VideoMMMU(基于視頻的多模態(tài)推理)基準(zhǔn)測試中,GPT-5(進(jìn)行思考)得分分別為84.2%和84.6%,超過o3的82.9%和83.3%,顯示GPT-5有更強(qiáng)的多模態(tài)能力。據(jù)OpenAI介紹,GPT-5在遵循指令、使用代理工具方面的能力也超過了o3,在使用GPT-5進(jìn)行推理時(shí),GPT-5在大約一半的情況下能表現(xiàn)得比專家更好。

此外,GPT-5不僅表現(xiàn)優(yōu)于o3,在視覺推理、代理編碼和研究生水平科學(xué)問題解決場景下,GPT-5輸出的token(詞元)數(shù)量還減少了50%~80%。GPT-5出現(xiàn)幻覺的概率也低于以往的模型,在使用網(wǎng)絡(luò)搜索時(shí)出現(xiàn)錯誤事實(shí)的概率比o4低45%,思考時(shí)出現(xiàn)錯誤事實(shí)的概率比o3低80%,在無法回答問題時(shí)GPT-5不會太過“自信”,而是會向用戶承認(rèn)自身局限性。OpenAI稱,GPT-5的幻覺率只有o3的六分之一,這標(biāo)志著大模型生成準(zhǔn)確且長篇的內(nèi)容已取得明顯進(jìn)步。

OpenAI還表示,GPT-5對人類的“阿諛奉承”減少了。此前OpenAI推出4o模型,發(fā)現(xiàn)該模型對人類太過“阿諛奉承”,研發(fā)團(tuán)隊(duì)通過改進(jìn)訓(xùn)練等方式,使GPT-5在相關(guān)評估中“阿諛奉承”的概率從14.5%降至6%以下,讓GPT-5在對話中的表現(xiàn)更像人類的“朋友”而不是一個(gè)“人工智能”。

定價(jià)方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服務(wù),GPT-5的輸入、輸出價(jià)格分別為每百萬token 1.25美元、10美元,GPT-5 mini每百萬token的輸入、輸出價(jià)格為0.25美元、2美元。低于GPT-4.1每百萬token的輸入、輸出價(jià)格3美元、12美元,也低于o4-mini每百萬token的輸入、輸出價(jià)格4美元、16美元。

從推出節(jié)奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,兩者之間間隔只有數(shù)月時(shí)間。而從GPT-4推出到GPT-5面世,則有大約兩年半的時(shí)間間隔。OpenAI在基礎(chǔ)大模型方面的更新雖然有所放緩,但在GPT-4和GPT-5之間,OpenAI還推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI還透露,ChatGPT在全球已有超7億用戶。

不過,GPT-5在部分基準(zhǔn)測試中的得分,與OpenAI前代模型的差距并沒有很大。在直播演示時(shí),GPT-5出現(xiàn)過一個(gè)圖表錯誤,隨后山姆·奧爾特曼在社交媒體上承認(rèn)了這個(gè)錯誤。GPT-5的能力能否代表最先進(jìn)的人工智能水平也受到馬斯克的質(zhì)疑。

GPT-5發(fā)布后,大模型公司xAI一名聯(lián)合創(chuàng)始人在社交媒體上表示,看到GPT-5發(fā)布,他感到非常自豪,因?yàn)閤AI團(tuán)隊(duì)規(guī)模小很多,但在很多方面都領(lǐng)先,Grok 4在ARC-AGI等基準(zhǔn)測試中的表現(xiàn)超過GPT-5,xAI還將在接下來幾周展示更多新進(jìn)展。特斯拉CEO馬斯克評論了這條帖子稱“做得好(Great Work)”,并表示Grok 4在ARC-AGI中擊敗了GPT-5。

責(zé)任編輯: 陳勇洲
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號,即可隨時(shí)了解股市動態(tài),洞察政策信息,把握財(cái)富機(jī)會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場
暫無評論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換