学習方法を自力で進化させるAI「DiscoRL」が誕生――AIがAIを育てる時代へ
学習方法を自力で進化させるAI「DiscoRL」が誕生――AIがAIを育てる時代へ / 進化するAIのイメージ/Credit:川勝康弘
artificial-intelligence

学習方法を自力で進化させるAI「DiscoRL」が誕生――AIがAIを育てる時代へ (2/3)

2025.10.24 18:00:22 Friday

前ページAIがAIのために自分で学習法を編み出す

<

1

2

3

>

機械が自分の『先生』を作った日——AI学習革命の幕開け

機械が自分の『先生』を作った日——AI学習革命の幕開け
機械が自分の『先生』を作った日——AI学習革命の幕開け / Credit:川勝康弘

ここからは、研究チームが行った「AIが自ら学び方を作り出す」という大胆な実験の詳細と、その驚きの結果を見ていきましょう。

研究チームが最初に用意したのは、多数のAIたちが学習に挑むための「仮想環境」です。

この環境というのは、人間で例えれば学校のようなもので、AIが問題を解いたり競争したりするための舞台です。

今回の研究では「Atariベンチマーク」という古典的なビデオゲームのセットを使っています。

「ベンチマーク」とはAIの実力を比較・評価するための共通の問題集のことで、特にAtariベンチマークはAI研究の世界では非常に有名です。

(※生物学の世界におけるマウスやショウジョウバエのような位置づけで、いろいろな研究を横並びで比較するための基準となっています。)

Atariベンチマークの中には「ブロック崩し」のようなシンプルなゲームから、「パックマン」のような複雑なものまで、さまざまな種類のゲームがあります。

この多様さがポイントで、特定のゲームだけが得意な「専門家AI」ではなく、どのようなゲームにも対応できるような「汎用性」(幅広い問題に対応できる力)を持ったAIを作ることが目標だからです。

ここまでで、研究チームがAIに与えた環境のイメージができたかと思います。

では、実際にAIたちはこの環境でどのようにして学習ルールを発見していったのでしょうか?

研究チームは、AIを「先生役」と「生徒役」に分ける仕組みを考案しました。

生徒役のAIは先生役のAIが決めたルールに従ってゲームをプレイします。

その結果、ゲームで高得点を出せたAIもいれば、あまり良い成績を残せなかったAIもいます。

そこで重要になるのが、先生役のAIである「メタネットワーク」(学習ルールを作る上位AI)の存在です。

このメタネットワークは、生徒役AIの成績をもとにして、より良い結果を出したAIの学習ルールを参考にし、次の世代の「新しい学習ルール」を生み出します。

まるで、たくさんの生徒の成績を見比べて良い教え方を見つけ出す熱心な先生のような役割です。

こうして世代交代を何度も繰り返すことで、学習ルールは少しずつ洗練され、より良い結果を出せるように進化していきます。

これは、コンピューターの中で小さな進化を再現しているような仕組みです。

この実験の末に、研究チームはついにAI自身が生み出した新しい学習法、「DiscoRL(ディスコアールエル)」を発見しました。

では、実際に新しく発見された学習法「DiscoRL(ディスコアールエル)」の実力はどのくらいすごいのでしょうか。

研究チームはこのDiscoRLを使って育てたAI(エージェント)の性能を、これまで広く使われてきた人間設計の学習方法(AIアルゴリズム:PPOなど)と比較しました。

するとDiscoRLは、これまで人間が設計した更新則の多くを上回る成績を示しました。

この結果はAI研究者にとっても大きな驚きでした。

さらに注目すべきは、そのAIが「全く新しい課題」に直面したときの対応力です。

DiscoRLを使って育てたAIは、訓練中に一度もプレイしたことのない新しいゲームでも、高いレベルで結果を出すことができました。

人間でいえば、「初めて見る問題集でも優秀な成績を取れる」ような、柔軟な能力を示しています。

従来の人間設計の学習方法では、特定のゲームだけで極端に成績が良いことはよくありました。

しかし、その学習法が他のゲームでも同じようにうまくいくとは限らず、問題ごとに「特別な工夫」が必要でした。

こうした特別な工夫は「小手先のテクニック」とも呼ばれ、別の課題には応用しづらいものでした。

ところが今回のDiscoRLは、そうした特定のゲームだけで効果を発揮する工夫に依存せず、より一般的で汎用的なルールになっていることが示されています。

この点は、AIが「自ら学習ルールを発明した」最大のメリットの一つであり、人間が与えたルールよりも広く使える可能性を示しています。

言い換えれば、AI自身が、自分であらゆる問題に応用できる「汎用性の高い学習法」を編み出したということです。

弟子が師匠を超え、新しい技を生み出したような状況とも言えるでしょう。

つまり、今回の研究結果が示しているのは、AIが単に人間に教えられた学習ルールを超えただけでなく、自ら経験を積んで新しい学習方法を作り出し、それが人間の想定を超えるほど効果的であったということです。

これはAIが今後さらに自律的に「進化」を続けていく可能性を感じさせる成果です。

AIが自分自身の先生を作り出したことで、私たちは新しい時代の入口に立っているのかもしれません。

次ページAIが人間の手を離れて自立進化する未来は来るのか?

<

1

2

3

>

人気記事ランキング

  • TODAY
  • WEEK
  • MONTH

Amazonお買い得品ランキング

スマホ用品

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!