Google 發佈 Gemini 2.5 Pro 推理模型 擊敗 Grok 3 成為地上最強

gemini logo

早前,xAI 推出 Grok 3 成為當時的「最強」 AI,而今天 Google 繼 Gemini 2.0 亮相僅數月後,再度宣佈推出最新升級版 Gemini 2.5。Google 首款「思考型」實驗模型 Gemini 2.5 Pro 在 LMArena 上的表現卓越,特別是在程式編碼、數學及科學推理方面的強大能力。

Gemini

LMArena 跑分第一

Google 對 Gemini 2.5 的性能充滿信心,特別是在業界常用的 LMArena 基準測試平台上,其表現據稱相當出色。新模型在需要高度邏輯與精確性的領域,如程式編碼、複雜數學問題求解以及科學分析等方面,展現了顯著的進步,預示著其在專業應用上的巨大潛力。

screenshot 411
final 2.5 blog 1.original

主打深度思考

Gemini 2.5 Pro Experimental 模型旨在提供更深層次推理、分析與情境理解的回應的「思考型模型 (thinking model)」,與傳統主要基於分類和預測驅動的模型有所不同。

Google DeepMind 技術長 Koray Kavukcuoglu 在網誌中解釋道:「透過結合顯著增強的基礎模型與改良的後訓練 (post-training) 技術,我們在 Gemini 2.5 上達到了新的性能水平。」他進一步表示:「未來,我們將把這些『思考能力』直接內建到我們所有的模型中,使其能夠處理更複雜的問題,並支持能力更強、具備情境感知能力的智能代理 (agents)。」這揭示了 Google 對於 AI 未來發展的長遠佈局。

gemini benchmarks cropped light2x.original

開發者與進階用戶搶先體驗

事實上,Google 近日才剛開始將 Gemini 2.0 逐步整合至旗下服務中,例如用於驅動搜尋服務中新增的 AI Mode 以及處理更複雜查詢的 Deep Research 功能。隨著 Gemini 2.5 的發布,預計 Google 將很快公布更多關於新版本整合的更新消息。

目前,Gemini 2.5 Pro Experimental 已在 Google AI Studio 中提供給開發者使用,而 Gemini Advanced 的訂閱會員則可以直接透過 Gemini 應用程式體驗其強大功能。

screenshot 412

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG