科技媒體 TechCrunch 昨日(12 月 23 日)發(fā)布博文,認(rèn)為 OpenAI 的 o3 模型雖然在 ARC-AGI 等測(cè)試中取得了亮眼成績(jī),但背后的高計(jì)算成本,讓其短期內(nèi)很難在實(shí)際應(yīng)用中普及。
o3 性能
o3 的新功能之一是可以調(diào)整推理時(shí)間,分為低、中、高三種計(jì)算級(jí)別,計(jì)算級(jí)別越高,o3 的任務(wù)執(zhí)行性能越好。
而 o3 是 OpenAI 是邁向該目標(biāo)的重要一步,在 ARC-AGI 基準(zhǔn)測(cè)試中,o3 在高計(jì)算設(shè)置下獲得了 87.5% 的分?jǐn)?shù),在低計(jì)算設(shè)置下得分為 75.7%,性能是 o1 的三倍。
在 EpochAI 的 Frontier Math 基準(zhǔn)測(cè)試中,o3 解決了 25.2% 的問(wèn)題(其他模型均不超過(guò) 2%),創(chuàng)造了新紀(jì)錄。
o3 模型成本過(guò)高
ARC-AGI 基準(zhǔn)測(cè)試的創(chuàng)建者 Fran ois Chollet 在博文中寫(xiě)道,OpenAI 的 o3 模型雖然是 AI 領(lǐng)域的一個(gè)重要突破,但成本著實(shí)太高。
根據(jù) ARC-AGI 測(cè)試的性能圖標(biāo),o3 的高分版本每項(xiàng)任務(wù)都使用了價(jià)值超過(guò) 1000 美元(IT之家備注:當(dāng)前約 7303 元人民幣)的計(jì)算資源,o1 模型每個(gè)任務(wù)使用約 5 美元的計(jì)算資源,而 o1-mini 僅使用幾美分。
這意味著 OpenAI 雖然獲得了將近 88% 的高分,但卻消耗了 170 多倍的計(jì)算資源,而高計(jì)算版本 o3 整個(gè)測(cè)試下來(lái),調(diào)用資源成本超過(guò) 1 萬(wàn)美元(當(dāng)前約 73033 元人民幣),只有財(cái)力雄厚的機(jī)構(gòu)和個(gè)人才能負(fù)擔(dān)得起 o3 模型的使用成本。
o3 模型的高計(jì)算成本使其更適合處理復(fù)雜問(wèn)題,例如長(zhǎng)期戰(zhàn)略決策,而非日常小問(wèn)題;更高效的 AI 推理芯片和更具成本效益的 AI 芯片可能是未來(lái)降低 o3 模型使用成本的關(guān)鍵。