OpenAI 推出 GPT-4o 新功能一覽

OpenAI 在今日的春季發佈活動中，宣佈推出最新發佈的 GPT-4o Model，當中（“o”代表“omni”）這標誌著在更自然和多樣化的人機互動方面取得了重大進展。

反應速度更快

GPT-4o的一個突出特點是其對音頻輸入的快速反應時間。它可以在僅232毫秒內做出回應，平均反應時間為320毫秒，這與人類的對話速度非常接近。這一改進使得GPT-4o成為現有模型中更高效的替代品，提供更快且更具成本效益的性能。具體來說，它在英語文本和編碼方面達到了GPT-4 Turbo 的水準，在非英語語言方面表現出色，並且處理請求的成本顯著降低——通過API便宜50%。

聲畫處理能力提升

GPT-4o在視覺和音頻理解方面的進步尤其值得注意。之前的模型，如使用 Voice Mode 的 GPT-3.5 和 GPT-4，處理音頻輸入需要多步驟過程，導致更高的延遲（GPT-3.5為2.8秒，GPT-4為5.4秒）且丟失了很多上下文信息。這些模型使用單獨的系統來將音頻轉錄為文本、處理文本以及將文本轉換回音頻，這限制了它們識別語氣、處理多個講話者或解釋背景噪音的能力。

即時語音對話功能

GPT-4o 不僅提供與 GPT-4 相當的智能水平，還在速度和功能上有所提升。例如，用戶現可將不同語言的餐牌拍照後，直接與 GPT-4o 交談來翻譯並了解食物的歷史與重要性，同時獲得餐點建議。OpenAI 預計在未來引入更自然的即時語音對話功能，並能透過實時影片與 ChatGPT 互動，如解說直播體育賽事的規則等。

支援超過 50 種語言

GPT-4o 的語言處理能力在質量和速度上均有顯著提高，現支援超過 50 種語言。OpenAI 已開始將 GPT-4o 推廣至 ChatGPT Plus 和 Team 使用者，企業用戶也將很快獲得服務。此外，GPT-4o 亦已對所有用戶開放，但免費用戶將受到使用限制，其中 Plus 用戶的消息限制是免費用戶的 5 倍，Team 和企業用戶則有更高的限制。

免費用戶同樣享有新功能

OpenAI 的使命包括為更多人提供先進的 AI 工具。目前，每週已有超過一億人使用 ChatGPT。未來幾週，OpenAI 將逐步為免費用戶提供更多智能工具和功能，這包括使用 GPT-4o 享受 GPT-4 級的智能體驗、獲得模型和網絡的回應、進行數據分析和創建圖表、討論照片內容、上傳文件以獲得摘要、寫作或分析的協助、探索和使用 GPTs 以及 GPT Store，以及利用記憶功能打造更為貼心的使用體驗。