AIが想像力を働かせてマインクラフトでダイヤを掘る
新たな研究は「世界モデル(World Model)」という概念をAIに用います。
これは「AIが頭の中に仮想的な環境を丸ごと構築し、その中で未来を予測して練習を繰り返す」という仕組みです。
まずAIは大量のデータを使って、現実世界やゲーム内の状況を抽象的に理解する「世界モデル」という内部の地図を作り上げます。
この世界モデルは、実際のマインクラフトの世界をまるで縮小版のシミュレーションとして再現しているようなものです。
AIは、この内部モデル上で、さまざまな行動を試し、その結果としてどんな状態になり、どれだけの報酬(ゲーム内ではたとえばダイヤモンドなどの貴重な資源)が得られるかを計算します。
言い換えれば、AIは自分の中で「もしこう動いたらどうなるだろう?」と無数の未来のシナリオを瞬時に描き、その中から最も良い結果が得られると予測される行動を選び出しているのです。
この一連のプロセスは、まるでチェスのプレイヤーが次の一手を考える時に、頭の中で何手先までシミュレーションするのと似ています。
たとえば囲碁の名手や将棋のプロが、いちいち盤を動かさなくても何手も先の展開を脳内シミュレーションして次の一手を導き出すように、AI自身が“頭の中のマインクラフト世界”を走らせて試してみるのです。
ある意味で人間のように世界を「理解」し「想像」を行っていると言えるかもしれません。
AIには心がなく純粋に計算によって将来を思い描いているだけですが、人間だって未来の想像に常に心情を伴っているわけではないでしょう。

研究では、AIの学習を進めるにあたり大きく分けて二つの手法がとられました。
まず一つ目は、「AIが多種多様なタスクにどの程度対応できるか」を確かめるための検証です。
具体的には、Atariゲームやロボット制御タスク、3D迷路、そしてマインクラフトなど、150を超える異なる環境を用意し、そのすべてで同じアルゴリズムを動かして性能を測定しました。
通常であれば、環境ごとにパラメータを入念に調整したり、特別な追加データを与えたりする必要があります。
しかしこの研究では、ほぼ固定の設定で一通り学習を行うという大胆な方法を選んだのです。
結果として、従来は「これ専用の手法でなければうまくいかない」と思われていたタスクでも、新しいAIアルゴリズム「Dreamer」が十分以上の成績を示すケースが多く見つかりました。
たとえば、あるタスクでは動作制御に特化した以前のアルゴリズムと同等かそれ以上の得点をマークし、また別のタスクでは画像を扱うゲーム環境でも高い適応力を示しました。
「ひとつのAIがさまざまな領域でそれなりにうまく立ち回れる」という事実は、これまでの“特化型AI”の常識を覆す重要な一歩といえるでしょう。
二つ目の柱として、とりわけ注目を集めたのが「マインクラフト」を舞台にした実験です。
ご存じの方も多いかもしれませんが、マインクラフトはプレイするたびにワールド(地形や資源配置)が自動生成されます。
つまり、一度うまくいった方法が必ずしも次回も通用するとは限りません。
しかも、最終的な目標のひとつであるダイヤモンドは地下深くにあって、「何をどう掘ればたどりつけるか」がさっぱりわからない状態からのスタートです。
そこで研究チームは、より挑戦的な条件として、人間のプレイデータや攻略のヒントをまったく与えない方式を選びました。
要するに、AIは文字どおり手探りの状態で行動し、あらゆる過程を自分で学んでいかなければならなかったのです。
その結果は、驚くほど画期的なものでした。
AIは最初、どうやって木を切るのかさえ分からない様子でしたが、試行錯誤を重ねるうちに少しずつ合理的な行動をとるようになります。
やがて自分で道具をクラフトし、地下を効率よく探索する方法を学習し、ついにはダイヤモンドの入手にまでこぎつけました。
さらに注目すべきは、同じ条件で繰り返し実験してもダイヤモンドの収集が再現性をもって確認されたという点です。
これは単なる“偶然の成功”ではなく、AIが「どのように動けば目的に近づくか」をしっかり理解し、応用している証拠と考えられます。
こうして「人間のプレイデータなしでダイヤモンド収集まで完了させた」という事実は、これまでの常識を覆すインパクトがあります。
なぜなら、従来の方法では大半の場合、攻略手順を段階的に教えたり、ゲームに合わせて専用のしくみを作ったりすることが“当たり前”でした。
つまり今回の成果は、AIの学習能力をより“純粋なかたち”で証明したといえます。
特定のゲームやタスクに合わせた特別な調整がなくても、幅広い環境で高いパフォーマンスを発揮できる。
それこそが、本研究の最大の革新点です。
これによって、「AIは自分の頭の中の仮想環境(世界モデル)を活用し、まるで何でもこなせる多才なアスリートのように成長できるのではないか」という期待が、現実のものに近づいたのです。