英國約克大學的研究人員 Adrian de Wynter 最近進行的研究探討了 GPT-4 在玩經典第一人稱射擊遊戲《DOOM》(1993 年版本)的能力。這項研究藉由測試 GPT-4 能否在沒有事先訓練的情況下玩遊戲來進行探討,該研究的結果發佈於論文「Will GPT-4 Run DOOM?」中。
研究方法:結合 GPT-4V 與代理模型
De Wynter 設計了一個系統,利用 GPT-4V 這個能夠接受圖像輸入的多模態 GPT-4 變體,從遊戲引擎捕捉截圖並返回遊戲狀態的結構化描述。這些資訊接著被送入一個代理模型,該模型根據視覺輸入和過往歷史作出決策,並將其響應轉換成遊戲引擎可以理解的按鍵指令。
未能感畫面以外的敵人
儘管這個系統在玩《DOOM》方面顯示出了一定的潛力,但也揭示了一些限制。其中一個主要問題是 GPT-4 缺乏物體恆存性,意味著當遊戲中的敵人移出畫面時,它會忘記它們的存在。此外,GPT-4 在推理和行動欠清晰,常遇到了困難。
測試結果:未能過關
在 Adrian de Wynter 的研究中,GPT-4 在控制《DOOM》遊戲的代理模型時,未能在任何情境下完成地圖。然而,該模型曾在兩次測試中差點完成任務。
一次是進入房間 D 並立即被等待在那裡的惡魔所殺;另一次則是到達房間 D 的門前,然後回頭,打開一扇通往庭院的秘密門,最終因時間耗盡而終止。
射擊準確度差、忽視環境危險
然而,代理模型經常忽略敵人,射擊準確度差,並忽視環境危險。在少數情況下,它甚至會近距離射擊牆壁,或更糟的是,射擊爆炸桶。這些問題揭示了模型在理解遊戲動態和戰略規劃方面的限制。
限制及潛力
儘管存在這些限制,De Wynter 認為 GPT-4 能夠在沒有事先訓練的情況下玩《DOOM》仍然是值得稱讚的。這表明了 GPT-4 在遊戲和其他互動媒介中的潛在應用,開啟了未來研究的新方向。