新不如舊?OpenAI 最新 o3 AI 模型性能較去年 Preview 版大幅下滑!

openai

根據 ARC Prize Foundation 最新分析,OpenAI 正式發佈的 o3 型號在標準化推理評估中的表現明顯不如先前的 o3-preview 版本,引發業界對人工智能實際推理能力與成本效益的廣泛討論。

openai

效能落差揭露新版 o3 限制

ARC Prize Foundation 透過 ARC-AGI 評測基準,針對象徵式推理、多步組合及依上下文變化而異的規則應用等能力進行全面測試。該基準模擬人類在未受特殊訓練下可自然完成的推理任務,是衡量當前人工智能真實理解能力的重要工具。o3 在 ARC-AGI-1 中的低與中階推理水準分別僅達 41% 與 53% 準確率,相較於去年底 o3-preview 在同項目中創下的 76%(低)與 88%(高)表現明顯下滑。

Model Reasoning setting Semi Private Eval V1 Semi Private Eval V2 Cost per task (V2)
o3 Low 41% 1.9% 1.22 US dollars
o3 Medium 53% 2.9% 2.52 US dollars
o3 High
o4-mini Low 21% 1.6% 0.05 US dollar
o4-mini Medium 42% 2.3% 0.23 US dollar
o4-mini High

高推理不等於高準確

儘管推理深度提高理應增進解題能力,但研究顯示「高推理模式」常導致更高的計算成本與 Token 使用,卻未帶來顯著準確率提升。尤其在 ARC-AGI-2 的高難度題庫上,o3 與更小型的 o4-mini 都未能突破 3% 準確門檻。分析指出,這些型號在高推理設定下仍偏好選擇簡單題目作答,進一步凸顯當前 AI 在複雜推理任務上的瓶頸。

建議選擇中階推理設定

在成本敏感場景下,ARC Prize Foundation 建議使用 o3 的中階推理設定為預設值。Foundation 聯合創辦人 Mike Knoop 表示:「若重視準確率,就沒有使用低推理設定的理由。」與此同時,o4-mini 在每題僅約五美分的成本下達成 21% 準確率,相比早期型號如 o1-pro 每題高達 11 美元的費用,展示了顯著的成本效益優勢。

o3-preview 與正式版本差異顯著

OpenAI 向 ARC 確認,正式推出的 o3 型號與先前測試的 o3-preview 在架構上有所不同,後者規模更大、專注於文字處理並使用更多資源,而現行 o3 則支援多模態輸入(文字與圖像)並優化為更節能的產品導向應用。此外,OpenAI 表示,o3-preview 的訓練資料中包含 75% ARC-AGI-1 資料,而正式版 o3 則未直接訓練於此基準資料上,儘管可能因公開可得性間接暴露。此一差異也提醒,未發佈模型的基準測試結果應謹慎解讀。

效率成為未來競爭關鍵

在人工智能技術持續進展下,如何在維持準確率前提下,以更低成本、更快速度、更少 Token 完成任務,已成為模型之間的關鍵區隔。ARC Prize Foundation 指出,效能與效率的平衡將是未來評估模型價值的核心指標。

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG