zoty中歐體育官方網(wǎng)站-ChatGPT Agent多項測試跑分破紀錄 HLE測試獲41.6%
【zoty中歐體育官方網(wǎng)站】7月18日,Open AI首席執(zhí)行官Sam Altman和四位研究員在直播中正式發(fā)布了ChatGPT Agent——一款通用型AI智能體。CNMO獲悉,在HLE測試中,ChatGPT agent拿下了41.6%高分,并在數(shù)學(xué)FrontierMath基準上刷新了SOTA,碾壓o4-mini和o3模型。
Sam Altman(最右)及他的團隊
ChatGPT Agent融合了Operator、Deep Research和ChatGPT三大模塊優(yōu)勢,能夠自主完成網(wǎng)頁瀏覽、數(shù)據(jù)分析、PPT制作等復(fù)雜任務(wù)。
ChatGPT Agent在HLE測試中獲得41.6%的高分,采用并行八路推理并選取置信度最高答案后可提升到44.4%。在數(shù)學(xué)基準測試FrontierMath中,以27.4%的準確率刷新了紀錄。
在Excel編輯能力的SpreadsheetBench測試中,ChatGPT agent的表現(xiàn)同樣遠超現(xiàn)有模型。當獲得直接編輯權(quán)限時,以45.5%的得分顯著超越Excel Copilot的20.0%。此外,它還在BrowseComp、WebArena等瀏覽評測里均刷新了SOTA。
據(jù)悉,該產(chǎn)品已面向Pro、Plus和Team用戶開放。Pro用戶可以馬上使用,Plus與Team用戶將在數(shù)日內(nèi)陸續(xù)開通,Enterprise與Education版本將于數(shù)周后接入。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
-zoty中歐體育官方網(wǎng)站