AI 玩 Pokemon 遊戲仍不如小孩　重訪已完成的城鎮、在地圖死角停滯

人工智能巨頭紛紛預告 AGI 時代即將到來，但當 Anthropic 最新的 Claude 3.7 Sonnet 在一款兒童遊戲中仍顯得笨拙，讓我們思考：AI 真的離「超越人類」還有多遠？

過於樂觀的超人類智能？

OpenAI 暗示將推出「博士級」AI 代理，能達到「高收入知識工作者」的水平。Elon Musk 宣稱 2025 年底前「我們將擁有比任何人類都聰明的 AI」。Anthropic 的 CEO Dario Amodei 則認為 AI「在幾乎所有方面超越人類」可能要到 2027 年底。

在這股浪潮中，Anthropic 推出的「Claude Plays Pokémon」實驗被視為邁向 AGI 的里程碑。Anthropic 宣稱其最新模型透過「改進的推理能力」，能在這款經典遊戲中取得顯著進展。

儘管 Claude 3.7 Sonnet 能「向前規劃、記住目標並調整策略」，但實際表現不盡理想。Twitch 觀眾目睹 Claude 在遊戲中「掙扎」：它會無意義地重訪已完成的城鎮、在地圖死角停滯，或不斷與同一 NPC 對話。

相較於舊模型，新模型確實能收集多個道館徽章，但這並不代表在整個遊戲中的成功。看著 Claude 在兒童遊戲中持續掙扎，難以想像它是超級智能的前身。

項目開發者 David Hershey 解釋，Claude 使用的是未經修改的通用模型，沒有針對寶可夢進行特定訓練。儘管如此，它仍難以解讀 Game Boy 的低解析度畫面，「你會看到它經常試圖走入牆壁」。

Claude 在「記住」已學內容方面存在困難，且會將錯誤信息插入知識庫。「過去寫下的事情，它基本盲目信任，」Hershey 說，「有時它會確信在某處找到出口，然後花數小時在錯誤區域探索。」

Hershey 對未來仍持樂觀態度：「如果它對螢幕內容有完美理解，可能能夠通關遊戲。」無論如何，Claude 目前表現並不像即將引入人類水平智能的先兆。

但 Hershey 強調：「『完全不能做』和『有點能做』之間的差異是相當大的，當某物能夠有點做某事時，通常意味著我們離讓它做得非常好已經很接近了。」