Google 挑戰 GPT4 推出 Gemini AI 模型

2023-12-07

Google 今天宣佈推出其自家最先進的人工智能模型「Gemini」。Alphabet CEO Sundar Pichai 強調，AI 帶來的轉變比以往的技術轉型更為深遠。Gemini作為 Google DeepMind 的一部分，由 Google 各團隊聯手打造，旨在實現多模態整合，能無縫理解文本、音樂、圖像和影片等多種信息類型。

gemini

三種模式

Gemini 1.0 推出三種不同模式：Ultra、Pro 和 Nano，各自針對不同任務進行優化。Ultra 在複雜任務中表現卓越，甚至在多項包括大規模多任務語言理解 (MMLU) 在內的基準測試中超越人類專家。它在多模態任務和編碼基準測試中也展示了最先進的性能。Pro 和 Nano 則分別針對跨任務擴展和設備上操作進行設計。

Gemini FlexibleModel

全方位感知能力

根據近期的性能測試，Google 的「Gemini」在視覺和聽覺互動方面展現出明顯優勢。這是有意而為之的設計：從一開始，多模態就是 Gemini 計劃的核心部分。不同於 OpenAI 分別為圖像和語音創建了 DALL-E 和 Whisper，Google 從一開始就建立了一個多感官的綜合型號。Google DeepMind CEO Demis Hassabis 表示，他們一直對非常通用的系統感興趣，尤其關注如何將不同模式結合在一起，從任何數量的輸入和感官收集數據，並以同樣豐富的方式給出回應。

從文字到多媒體

目前，Gemini 最基礎的型號是文字輸入和輸出，但更強大的型號，如 Gemini Ultra，可以處理圖像、視頻和音頻。Hassabis 透露，這只是開始，Gemini 的通用性將進一步提升，未來還將涉及動作、觸感等類似機器人技術的領域。隨著時間的推移，他說，Gemini 將獲得更多感官，變得更有意識，並在此過程中變得更準確、更扎根於現實。「這些型號將更好地理解周圍的世界」。當然，這些型號仍然會產生幻覺，也有偏見和其他問題，但 Hassabis 認為，隨著它們獲取的信息越來越多，它們的表現會越來越好。

編程領域表現出色

儘管性能測試結果重要，但 Gemini 的真正能力最終將由日常用戶在使用它來激發創意、查找信息、編寫代碼等方面的體驗中得到驗證。Google 似乎特別看好 Gemini 在編程領域的應用，它使用了一種名為 AlphaCode 2 的新代碼生成系統，該系統的表現超過了 85% 的編碼競賽參與者，相較於原始 AlphaCode 的 50% 有顯著提升。Pichai 表示，用戶將在型號接觸的每一個方面注意到改進。

Author

Alex

終日與 Game 為伴，最愛跟大批人一起組隊玩線上遊戲，比一個人單打獨鬥有情義得多。

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版登場。限免已完結？不想錯過重大限免應用，可到本站追蹤 Telegram 頻道、Facebook、IG。