想像力を持つAIはマインクラフト世界を理解し探検・クラフト・採掘を行う
想像力を持つAIはマインクラフト世界を理解し探検・クラフト・採掘を行う / Credit:clip studio . 川勝康弘
artificial-intelligence

想像力を持つAIはマインクラフト世界を理解し探検・クラフト・採掘を行う

2025.04.07 21:00:01 Monday

Google DeepMindが開発した「Dreamer」と呼ばれる新しい強化学習アルゴリズムによって、想像力に似た力を持つAIがマインクラフトでダイヤの採掘を行うことに成功しました。

これまでの技術でもオープンワールドゲームの世界で特定の目的を持って動き回るAIは存在していましたが、新たなAIは全てを人間の助けなしに0から学び、自分の力だけで探検や採掘、そしてクラフトを行いダイヤを獲得するのです。

「AIなんだからそれくらいできるでしょ?」と思うかもしれません。

しかしマインクラフトでダイヤを採取するには現実でダイヤを掘るのと同じく数多くの過程を消化しなければならず、また生存し続けるには危機を予測し回避することも必要になります。

そのような全てを統合し合理的に作業を行うことはこれまでのAIでは困難でした。

研究者たちはマインクラフトという仮想世界での成功は現実世界での「何でもこなすAI」の登場において重要なステップになると述べています。

普通なら挫折しかねない課題を「AIだけでやり遂げた」と聞くと、未来のロボットや自律システムの可能性さえ感じさせます。

いったいどのような仕組みが、この“大冒険”を支えているのでしょうか?

研究内容の詳細は『Nature』にて発表されました。

Mastering diverse control tasks through world models https://doi.org/10.1038/s41586-025-08744-2

AIがオープンワールドで遊ぶとは何を意味するか?

想像力を持つAIはマインクラフト世界を理解し探検・クラフト・採掘を行う
想像力を持つAIはマインクラフト世界を理解し探検・クラフト・採掘を行う / FIG1は、Dreamerアルゴリズムがどのようにして未来を予測し、最適な行動を選ぶかを視覚的に示した図です。 まず、環境から得られる実際の映像やセンサーデータが、エンコーダーによってコンパクトな抽象表現に変換されます。 これは、まるで風景写真から主要な特徴だけを抜き出して、シンプルなスケッチにするようなイメージです。 その後、これらの抽象化された情報はリカレントネットワークに送られ、過去の情報をもとに「今」の状態を把握するとともに、次に何が起こるかを予測するためのシーケンスが生成されます。 ここでAIは、まるで天気予報士が過去のデータから明日の天気を予想するかのように、未来のシナリオを内側でシミュレーションします。 さらに、この予測された未来のシナリオをもとに、アクターネットワークが「もしこう動いたらどれだけ良いか」を計算し、最適な行動を選択します。 同時に、クリティックネットワークはその選択がどれだけ価値のある結果をもたらすかを評価し、AI全体の学習をフィードバックします。 つまりAIがまるで自分の頭の中で「映画」を制作し、未来の予告編を見ながら最良の一手を決めるのです。これはある意味で想像力とも言えるでしょう。/Credit:Danijar Hafner et al . Nature (2025)

強化学習という言葉を聞くと、難しそうな数式や専門的なアルゴリズムを連想するかもしれません。

しかしその本質は、まるで子どもが自転車に乗れるようになるまで何度も転んでは起き上がるように、「トライ&エラーを繰り返して少しずつ学習する」という仕組みです。

最初は失敗ばかりでも、成功に近づくたびに「ご褒美」を受け取り、そのご褒美を最大化しようと行動を改良していく──そんなシンプルなイメージが強化学習の原点です。

ところが、実際には大きな壁がありました。 

多くの強化学習システムは「ゲームや環境によって細かいパラメータを変えないと、まともに学習できない」ことがしばしば起こります。

たとえば、難易度が高いゲームでは報酬を少し増やし、反対に報酬が簡単に取れすぎるゲームでは少し減らす、といった具合です。

これはちょうど、服のサイズが合わないたびに仕立て直しを繰り返しているようなもので、煩わしさが拭えません。

もし「着る人を選ばないフリーサイズのスーツ」が手に入るなら、そのほうが手間もかからず便利でしょう。

強化学習の研究コミュニティでは、こうした“調整なしでも多様なタスクをこなせるAI”を目指すアプローチが何年も議論されてきました。

そんな流れのなかでも、“マインクラフト”はとりわけ難しく、しかも魅力的な実験台です。

一言でいえば、“巨大な砂場”のような世界が広がっていて、プレイヤーはいろんなものを作れますし、どこへでも行けます。

資源を集め、道具を作り、道具を使ってさらに新しいものを作る、という果てしないサイクルが続きます。

自由度が高いぶん、「何から手をつけるかすら分からない」という問題も出てきます。 

ゲーム上級者は攻略サイトで知識を仕入れたり、先人のミスを学んだりしながら少しずつ上手くなるのですが、それをAIがいきなり全部ひとりでやれと言われたら、相当骨が折れるのは容易に想像できます。

中でも“ダイヤモンドの入手”は多くのプレイヤーが「ひと苦労した」と口をそろえるハードルで、人間にとってもやり込み甲斐のある大目標です。

実際、これまでの研究では「AIがマインクラフトを上手にプレイする」ためには、人間が事前に教えるステップが不可欠なケースが大半でした。

たとえば、「まずは木を切り、それを使って道具を作り……」といった手順を人間のプレイデータから学ばせるとか、難易度を段階的に設定するカリキュラムを用意してあげるとか。

これは確かに効果的ですが、一方で「AIが本当にゼロから自力で学習しきった」とは言い難いのも事実です。

もし何の助けもなく、ただ試行錯誤するだけでダイヤモンドまでたどり着けるなら、それは「地図のない広大な島に放り出されても、AIがサバイバル術を自前で身につけられる」ということを意味します。 

そこで重要になってくるのが、「世界モデル(World Model)」という考え方です。

次ページAIが想像力を働かせてマインクラフトでダイヤを掘る

<

1

2

3

>

人気記事ランキング

  • TODAY
  • WEEK
  • MONTH

Amazonお買い得品ランキング

スマホ用品

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!