AIはゲームを「作れる」のに「遊べない」──その矛盾が暴くもの

AIの能力が日々更新される2026年。だが70年の歴史を持つ「ゲームAI」の世界では、最先端モデルがいまだに初見のゲームすらまともにプレイできない。その事実が示す意味は、スペック表のどの数字よりも重い。

AIはゲームを「作れる」のに「遊べない」──その矛盾が暴くもの

AIの能力が日々更新される2026年。だが70年の歴史を持つ「ゲームAI」の世界では、最先端モデルがいまだに初見のゲームすらまともにプレイできない。その事実が示す意味は、スペック表のどの数字よりも重い。


コードは書ける、でもコントローラーは握れない

LLM(大規模言語モデル)の進化は止まらない。ベンチマークが追いつけなくなるほどの速度で、コーディング能力は人間のプログラマーを脅かすレベルに到達している。CursorやClaudeにプロンプトを一つ投げれば、遊べるゲームが出てくる時代だ。

ところが、その同じAIに「じゃあ自分で遊んでみて」と言うと、話は一変する。NYU Game Innovation Labの所長であり、AIゲームテスト企業Modl.aiの共同創業者でもあるジュリアン・トゲリウスは、IEEE Spectrumのインタビューでこう述べている。

「LLMをゲームのフレームワークに入れてテストしました。全滅です。全モデルが。単純な探索アルゴリズムにすら勝てません」

コードを書く能力と、ゲームをプレイする能力は、まったく別の知性を要求する。この矛盾こそが、2026年のAI研究における最も示唆的なパラドックスだ。

「プログラミングは極めてよくデザインされたゲームだ」

トゲリウスの論文『What can we learn about AGI from game AI?』が提示する視点は明快だ。プログラミングを「ゲーム」として捉えると、LLMの得意・不得意がくっきり見えてくる。

コードを書くという行為は、仕様というかたちで「ステージ」が提示され、コンパイルやテストという即座のフィードバックがあり、失敗すればエラーメッセージが原因を教えてくれる。ゲームデザイナーのラフ・コスターが提唱した「ゲームが楽しいのは、遊びながら学べるから」という理論に照らせば、プログラミングは理想的なゲームデザインそのものだ。

コードには明確なゴールと即座のフィードバックがある。ビデオゲームの多くは、それらが曖昧で、失敗のコストも高い。LLMが前者を得意とし後者を苦手とする理由は、ここにある。

しかもLLMは膨大なソースコードで事前学習し、さらにコーディング問題を解く強化学習を受けている。プログラミングという「ゲーム」を、文字通り数千万回プレイ済みなのだ。

AlphaZeroの神話が覆い隠してきたもの

「AIはもうチェスも囲碁も制覇した。ゲームなんて簡単でしょ?」──この認識は根本的に間違っている。

トゲリウスは明確に否定する。汎用的なゲームAIは、まだ存在しない。GoogleのAlphaZeroは囲碁もチェスも打てるが、ゲームごとに再学習と再設計が必要だった。そしてこの2つは、入出力空間が似ているという点で例外的に近い関係にある。

「HaloとSpace Invadersを両方プレイできないことに人々は驚きます。でもこの2つのゲームは、ある意味では2本の学術論文よりも互いに"遠い"んです」

ここにデータの壁もある。MinecraftやポケモンのようにAIがある程度プレイできるゲームは、世界で最も攻略情報が蓄積されたタイトルだ。数百万時間分の攻略ガイド、フォーラムの議論、ウォークスルー動画。つまりLLMは事前学習で「答え」を暗記しているだけで、未知のゲームには手も足も出ない

空間認識という致命的な弱点

なぜ初見のゲームでLLMが壊滅するのか。最もシンプルな答えは、ゲームプレイ用の訓練を受けていないということだ。ゲーム状態・行動・報酬という連続データは、事前学習データにほぼ存在しない。

だがそれ以上に深刻なのは、LLMが空間推論を根本的に苦手としていることだ。

トゲリウスらが開発したGVGAI-LLMベンチマーク(未知のアーケードゲームでLLMを評価するフレームワーク)では、ゲーム画面をASCII文字で表現してテキストベースで入力しても、LLMは空間的な位置関係を正しく推論できなかった。

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games
We introduce GVGAI-LLM, a video game benchmark for evaluating the reasoning and problem-solving capabilities of large language models (LLMs). Built on the General Video Game AI framework, it features a diverse collection of arcade-style games designed to test a model’s ability to handle tasks that differ from most existing LLM benchmarks. The benchmark leverages a game description language that enables rapid creation of new games and levels, helping to prevent overfitting over time. Each game scene is represented by a compact set of ASCII characters, allowing for efficient processing by language models. GVGAI-LLM defines interpretable metrics, including the meaningful step ratio, step efficiency, and overall score, to assess model behavior. Through zero-shot evaluations across a broad set of games and levels with diverse challenges and skill depth, we reveal persistent limitations of LLMs in spatial reasoning and basic planning. Current models consistently exhibit spatial and logical errors, motivating structured prompting and spatial grounding techniques. While these interventions lead to partial improvements, the benchmark remains very far from solved. GVGAI-LLM provides a reproducible testbed for advancing research on language model capabilities, with a particular emphasis on agentic behavior and contextual reasoning.

ビジョン言語モデルにスクリーンショットを見せて「次にどうすべきか」と聞けば、一人称視点のゲームなら「左に行け」くらいの妥当な答えは返す。だが、そこから実際にゲームをプレイできるまでの距離は、果てしなく遠い。

ゲームが「AGIテスト」になる理由

トゲリウスの論文が最も刺激的なのは、汎用ゲームプレイ能力をAGI(汎用人工知能)のベンチマークとして提案している点だ。

具体的には、SteamやApp Storeのトップ100ゲームを、事前学習なしで、人間のスキルプレイヤーと同程度の時間(10〜100時間)でクリアできるかという基準を示している。どれだけ知能が高くても、初見でストリートファイターIIの全試合に勝てたり、エルデンリングをクリアしたりすることはできない。ゲームはそもそも、失敗から学ぶことを前提にデザインされているからだ。

この基準は、チューリングテストよりも厳しい。なぜなら、テキスト生成だけでなく視覚処理、空間推論、長期計画、反復学習、そしてゲームごとに異なるメカニクスへの適応が求められるからだ。

現在のどの手法もこの課題に十分対応できないとトゲリウスは指摘する。数十時間の学習量は標準的な強化学習には少なすぎ、LLMのコンテキストウィンドウには多すぎる。おそらく、新しい方法論の発明が必要になる。

「作れるけど遊べない」が意味すること

このパラドックスは、AIの能力をどう評価すべきかという根本的な問いを突きつける。

LLMにAsteroidsのクローンを作らせれば、たいてい動くものが出てくる。だが「面白いゲーム」や「新しいゲーム」は作れない。なぜなら、ゲーム開発はイテレーティブなプロセスだからだ。書いて、テストして、ゲームの手触りを調整する。LLMはその「テスト」ができない。自分でプレイできないものを、どうやって改善するのか。

トゲリウス自身、さらに踏み込んだ問いを投げかけている。

未知のゲームをプレイすることすらできないなら、新しいゲームを「デザイン」することはなおさら不可能だ。良いゲームを作るには、頻繁なプレイテストが不可欠だからだ。

NVIDIAやGoogleがシミュレーション環境でAIを訓練する戦略についても、トゲリウスは冷静だ。Waymoの自動運転が機能するのは、運転という行為の多様性が限られているからであって、ゲームの世界はそれとは比較にならないほど多様だ。

正直なところ、この研究が示唆するのは不都合な真実かもしれない。LLMが得意なことの多くは、実は「よくデザインされたゲーム」のルールに乗っているだけなのではないか。明確な課題、即座のフィードバック、膨大な学習データ。その条件が揃わない領域では、AIの「知性」は急速に蒸発する。

ゲームという人類が数千年かけて作り上げた知性のテスト。そこでAIがいまだに落第し続けている事実は、過大評価への最良の解毒剤だ。


参照元

他参照


#AI #ゲーム #LLM #AGI #NYU #JulianTogelius #ゲームAI #機械学習 #ビデオゲーム

Read more

ASRock製マザーボード1枚がRyzen 7 9800X3Dを3本破壊──BIOS更新は解決策になっていないのか

ASRock製マザーボード1枚がRyzen 7 9800X3Dを3本破壊──BIOS更新は解決策になっていないのか

1枚のマザーボードが、約4ヶ月の間に高価なCPUを3本破壊した。BIOSアップデートを重ねても被害は止まらない。ASRockのAM5マザーボード問題が、新たな段階に入っている。 「シリアルCPUキラー」──1枚のマザーボードが3本のCPUを次々に破壊 ASRockのB850M PRO RS WiFiマザーボードが、わずか4ヶ月ほどの間にRyzen 7 9800X3Dを3本立て続けに破壊したとする報告が、Redditで波紋を広げている。 Asrock Mobo killed 3 9800X3D CPUs by u/notmember in ASRock B850M PRO RS WiFi CPU故障タイムライン(u/notmember報告) 1本目 2本目 3本目 BIOS 3.50 4.03 4.07β 故障まで 約10ヶ月 約2ヶ月 約1ヶ月 症状 CPU+DRAM