OpenAI 在今日的春季發佈活動中,宣佈推出最新發佈的 GPT-4o Model,當中 (“o”代表“omni”)這標誌著在更自然和多樣化的人機互動方面取得了重大進展。
反應速度更快
GPT-4o的一個突出特點是其對音頻輸入的快速反應時間。它可以在僅232毫秒內做出回應,平均反應時間為320毫秒,這與人類的對話速度非常接近。這一改進使得GPT-4o成為現有模型中更高效的替代品,提供更快且更具成本效益的性能。具體來說,它在英語文本和編碼方面達到了GPT-4 Turbo 的水準,在非英語語言方面表現出色,並且處理請求的成本顯著降低——通過API便宜50%。
聲畫處理能力提升
GPT-4o在視覺和音頻理解方面的進步尤其值得注意。之前的模型,如使用 Voice Mode 的 GPT-3.5 和 GPT-4,處理音頻輸入需要多步驟過程,導致更高的延遲(GPT-3.5為2.8秒,GPT-4為5.4秒)且丟失了很多上下文信息。這些模型使用單獨的系統來將音頻轉錄為文本、處理文本以及將文本轉換回音頻,這限制了它們識別語氣、處理多個講話者或解釋背景噪音的能力。
即時語音對話功能
GPT-4o 不僅提供與 GPT-4 相當的智能水平,還在速度和功能上有所提升。例如,用戶現可將不同語言的餐牌拍照後,直接與 GPT-4o 交談來翻譯並了解食物的歷史與重要性,同時獲得餐點建議。OpenAI 預計在未來引入更自然的即時語音對話功能,並能透過實時影片與 ChatGPT 互動,如解說直播體育賽事的規則等。
支援超過 50 種語言
GPT-4o 的語言處理能力在質量和速度上均有顯著提高,現支援超過 50 種語言。OpenAI 已開始將 GPT-4o 推廣至 ChatGPT Plus 和 Team 使用者,企業用戶也將很快獲得服務。此外,GPT-4o 亦已對所有用戶開放,但免費用戶將受到使用限制,其中 Plus 用戶的消息限制是免費用戶的 5 倍,Team 和企業用戶則有更高的限制。
免費用戶同樣享有新功能
OpenAI 的使命包括為更多人提供先進的 AI 工具。目前,每週已有超過一億人使用 ChatGPT。未來幾週,OpenAI 將逐步為免費用戶提供更多智能工具和功能,這包括使用 GPT-4o 享受 GPT-4 級的智能體驗、獲得模型和網絡的回應、進行數據分析和創建圖表、討論照片內容、上傳文件以獲得摘要、寫作或分析的協助、探索和使用 GPTs 以及 GPT Store,以及利用記憶功能打造更為貼心的使用體驗。