Elon Musk 旗下的 xAI 公司最近對外發佈了 Grok-1.5 版本,這是對其人工智能模型的一次重大更新。該更新旨在提升其在數學、編程等方面的表現,並已向早期測試者開放。公司聲稱,Grok-1.5 在多個領域與 GPT-4、Gemini Pro 1.5 及 Claude 3 Opus 等模型相比,展現出了顯著的改進。
數據表現:數學與編程能力的顯著提升
根據 xAI 公司提供的數據,Grok-1.5 在 MATH 基準測試中的得分較之前版本翻了一番多,達到了 50.6%。在處理 GSM8K(數學文字問題)和 HumanEval(編程)測試時,分別達到了 90% 和 74.1% 的得分,較之前的 62.9% 和 63.2% 有了顯著的提升。這些數據接近甚至超過了 Gemini Pro 1.5、GPT-4 和 Claude 3 Opus 等競爭對手,尤其是在 HumanEval 編程測試中,其表現超越了除 Claude 3 Opus 之外的所有競爭對手。
支持 128K tokens
Grok-1.5 支持處理長達 128K tokens 的長文本,這使其能夠從更多來源綜合數據,以更好地理解各種情境。xAI 表示,這一改進使得 Grok 的記憶容量較之前版本提升了高達 16 倍,從而能夠處理更長的文件。
Grok-1.5 仍有多個領域落後
雖然 Grok-1.5 在多個領域取得了進步,但 xAI 並未透露其在其他領域(如學術成績、多模態等)的表現,這些領域可能仍存在劣勢。此外,隨著 OpenAI 即將在今年夏季推出 ChatGPT 5,預計將帶來更自然的溝通體驗,Grok-1.5 的競爭地位可能不會長久。
X Premium+ 限定
目前,Grok 僅對 X(前身為 Twitter)的 Premium+ 級別用戶開放。不過,Elon Musk 近期承諾將其開放給 X 的普通 Premium 用戶。