科学を好きな人を増やすメディア、ナゾロジー！世の中にある沢山の不思議を冒険しよう！

Love science , enjoy !

youtubeチャンネルナゾロジー

学習方法を自力で進化させるAI「DiscoRL」が誕生――AIがAIを育てる時代へ — 学習方法を自力で進化させるAI「DiscoRL」が誕生――AIがAIを育てる時代へ / 進化するAIのイメージ/Credit:川勝康弘

artificial-intelligence

学習方法を自力で進化させるAI「DiscoRL」が誕生――AIがAIを育てる時代へ (2/3)

2025.10.24 18:00:22 Friday

前ページAIがAIのために自分で学習法を編み出す

<

1

2

3

>

機械が自分の『先生』を作った日——AI学習革命の幕開け

機械が自分の『先生』を作った日——AI学習革命の幕開け — 機械が自分の『先生』を作った日——AI学習革命の幕開け / Credit:川勝康弘

ここからは、研究チームが行った「AIが自ら学び方を作り出す」という大胆な実験の詳細と、その驚きの結果を見ていきましょう。

研究チームが最初に用意したのは、多数のAIたちが学習に挑むための「仮想環境」です。

この環境というのは、人間で例えれば学校のようなもので、AIが問題を解いたり競争したりするための舞台です。

今回の研究では「Atariベンチマーク」という古典的なビデオゲームのセットを使っています。

「ベンチマーク」とはAIの実力を比較・評価するための共通の問題集のことで、特にAtariベンチマークはAI研究の世界では非常に有名です。

（※生物学の世界におけるマウスやショウジョウバエのような位置づけで、いろいろな研究を横並びで比較するための基準となっています。）

Atariベンチマークの中には「ブロック崩し」のようなシンプルなゲームから、「パックマン」のような複雑なものまで、さまざまな種類のゲームがあります。

この多様さがポイントで、特定のゲームだけが得意な「専門家AI」ではなく、どのようなゲームにも対応できるような「汎用性」（幅広い問題に対応できる力）を持ったAIを作ることが目標だからです。

ここまでで、研究チームがAIに与えた環境のイメージができたかと思います。

では、実際にAIたちはこの環境でどのようにして学習ルールを発見していったのでしょうか？

研究チームは、AIを「先生役」と「生徒役」に分ける仕組みを考案しました。

生徒役のAIは先生役のAIが決めたルールに従ってゲームをプレイします。

その結果、ゲームで高得点を出せたAIもいれば、あまり良い成績を残せなかったAIもいます。

そこで重要になるのが、先生役のAIである「メタネットワーク」（学習ルールを作る上位AI）の存在です。

このメタネットワークは、生徒役AIの成績をもとにして、より良い結果を出したAIの学習ルールを参考にし、次の世代の「新しい学習ルール」を生み出します。

まるで、たくさんの生徒の成績を見比べて良い教え方を見つけ出す熱心な先生のような役割です。

こうして世代交代を何度も繰り返すことで、学習ルールは少しずつ洗練され、より良い結果を出せるように進化していきます。

これは、コンピューターの中で小さな進化を再現しているような仕組みです。

この実験の末に、研究チームはついにAI自身が生み出した新しい学習法、「DiscoRL（ディスコアールエル）」を発見しました。

では、実際に新しく発見された学習法「DiscoRL（ディスコアールエル）」の実力はどのくらいすごいのでしょうか。

研究チームはこのDiscoRLを使って育てたAI（エージェント）の性能を、これまで広く使われてきた人間設計の学習方法（AIアルゴリズム：PPOなど）と比較しました。

するとDiscoRLは、これまで人間が設計した更新則の多くを上回る成績を示しました。

この結果はAI研究者にとっても大きな驚きでした。

さらに注目すべきは、そのAIが「全く新しい課題」に直面したときの対応力です。

DiscoRLを使って育てたAIは、訓練中に一度もプレイしたことのない新しいゲームでも、高いレベルで結果を出すことができました。

人間でいえば、「初めて見る問題集でも優秀な成績を取れる」ような、柔軟な能力を示しています。

従来の人間設計の学習方法では、特定のゲームだけで極端に成績が良いことはよくありました。

しかし、その学習法が他のゲームでも同じようにうまくいくとは限らず、問題ごとに「特別な工夫」が必要でした。

こうした特別な工夫は「小手先のテクニック」とも呼ばれ、別の課題には応用しづらいものでした。

ところが今回のDiscoRLは、そうした特定のゲームだけで効果を発揮する工夫に依存せず、より一般的で汎用的なルールになっていることが示されています。

この点は、AIが「自ら学習ルールを発明した」最大のメリットの一つであり、人間が与えたルールよりも広く使える可能性を示しています。

言い換えれば、AI自身が、自分であらゆる問題に応用できる「汎用性の高い学習法」を編み出したということです。

弟子が師匠を超え、新しい技を生み出したような状況とも言えるでしょう。

つまり、今回の研究結果が示しているのは、AIが単に人間に教えられた学習ルールを超えただけでなく、自ら経験を積んで新しい学習方法を作り出し、それが人間の想定を超えるほど効果的であったということです。

これはAIが今後さらに自律的に「進化」を続けていく可能性を感じさせる成果です。

AIが自分自身の先生を作り出したことで、私たちは新しい時代の入口に立っているのかもしれません。

次ページAIが人間の手を離れて自立進化する未来は来るのか？

<

1

2

3

>

youtubeチャンネルナゾロジー

土星の傾き、原因は「衛星タイタン」にあった

土星の傾き、原因は「衛星タイタン」にあった

つらら内部の小さな泡は「気泡」ではなく不純物を多く含んだ水だった

つらら内部の小さな泡は「気泡」ではなく不純物を多く含んだ水だった

臨死体験の正体は死ぬ間際の「爆発的な脳活動」だった

臨死体験の正体は死ぬ間際の「爆発的な脳活動」だった

かわいそう…優しすぎて絶滅した海獣「ステラーカイギュウ」

かわいそう…優しすぎて絶滅した海獣「ステラーカイギュウ」

人気記事ランキング

Amazonお買い得品ランキング

日用品

1位

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

2位

ラボン(Lavons) 柔軟剤特大シャイニームーン[フローラルグリーン] 詰め替え 3倍サイズ 1440ml

ラボン(Lavons) 柔軟剤特大シャイニームーン[フローラルグリーン] 詰め替え 3倍サイズ 1440ml

3位

環境技研お米保存袋極厚米ガード～30Kg用 1枚入り [米保存袋食料備蓄大容量タイプ]

環境技研お米保存袋極厚米ガード～30Kg用 1枚入り [米保存袋食料備蓄大容量タイプ]

4位

[ＷＩＬＬ　ＣＬＥＮＳ] シューズパウダー日本製無香料シューケアキット靴消臭パウダー (1本)

[ＷＩＬＬ　ＣＬＥＮＳ] シューズパウダー日本製無香料シューケアキット靴消臭パウダー (1本)

5位

シルバーバック【カンタン！たのしい！水の生きもの砂絵セット】幼稚園小学校入園入学お祝いプレゼント準備 ([バラエティ])

シルバーバック【カンタン！たのしい！水の生きもの砂絵セット】幼稚園小学校入園入学お祝いプレゼント準備 ([バラエティ])

スマホ用品

1位

Ciunedr【4つのケーブル内蔵・56800mAh大容量】モバイルバッテリー急速充電 5台同時充電 PSE技術基準適合品 LCDディスプレイ残量表示 Type-C入力ポート+2USB-A出力ポート最大2.4A出力 iPad/iPhone/Android各種機器対応おまかせ充電低電流対応コンパクト＆軽量マルチ安全回路保護旅行/出張/停電対策/緊急防災日本語説明書

Ciunedr【4つのケーブル内蔵・56800mAh大容量】モバイルバッテリー急速充電 5台同時充電 PSE技術基準適合品 LCDディスプレイ残量表示 Type-C入力ポート+2USB-A出力ポート最大2.4A出力 iPad/iPhone/Android各種機器対応おまかせ充電低電流対応コンパクト＆軽量マルチ安全回路保護旅行/出張/停電対策/緊急防災日本語説明書

2位

[ハミィ] iFace Reflection スマホ携帯ストラップシリコン (ペールブルー)【スマホストラップアイフェイスリング携帯 iphoneストラップ】

[ハミィ] iFace Reflection スマホ携帯ストラップシリコン (ペールブルー)【スマホストラップアイフェイスリング携帯 iphoneストラップ】

3位

GameSir X5s スマホコントローラー Iphone、Android、PC、スイッチ/スイッチ2 幅広い互換性のゲームコントローラー Bluetooth5.3接続 174g軽量高耐久ホールスティックドリフト防止 213㎜伸縮タブレットコントローラ ABXYレイアウト交換可能、ジャイロセンサー搭載、TURBO連射機能、HD振動、約11時間稼働840mAh電池搭載ゲーミングコントローラーグラウンドゲーミング/ストリーミングプレイで遊ぶ可能日本語説明書グレー

GameSir X5s スマホコントローラー Iphone、Android、PC、スイッチ/スイッチ2 幅広い互換性のゲームコントローラー Bluetooth5.3接続 174g軽量高耐久ホールスティックドリフト防止 213㎜伸縮タブレットコントローラ ABXYレイアウト交換可能、ジャイロセンサー搭載、TURBO連射機能、HD振動、約11時間稼働840mAh電池搭載ゲーミングコントローラーグラウンドゲーミング/ストリーミングプレイで遊ぶ可能日本語説明書グレー

4位

Zeniss iphone 17 ガラスフィルムに適合する覗き見防止【米軍No.1規格航空材料&独創的なガイド枠】 2枚セット保護フィルム覗き見防止フィルム全面保護最強硬度10H 耐衝撃气泡なし自動吸着貼付け簡単超クリア画質高光沢ブルーライトカット目の疲れ軽減強化ガラス指紋防止破損防止飛散防止 6.3インチ

Zeniss iphone 17 ガラスフィルムに適合する覗き見防止【米軍No.1規格航空材料&独創的なガイド枠】 2枚セット保護フィルム覗き見防止フィルム全面保護最強硬度10H 耐衝撃气泡なし自動吸着貼付け簡単超クリア画質高光沢ブルーライトカット目の疲れ軽減強化ガラス指紋防止破損防止飛散防止 6.3インチ

5位

Unix Shell - Computer Science Programming Geek Nerd スマホケース iPhone 17 用

Unix Shell - Computer Science Programming Geek Nerd スマホケース iPhone 17 用

ゲーム

1位

【任天堂純正品】Joy-Con充電グリップ

【任天堂純正品】Joy-Con充電グリップ

2位

テレネットふくぶくろ - Switch

テレネットふくぶくろ - Switch

3位

エレコム Nintendo Switch2専用ハードケースポリカーボネート素材耐衝撃【装着したまま専用充電ドック使用可能】薄型設計クリア GM-NS225PVCRN

エレコム Nintendo Switch2専用ハードケースポリカーボネート素材耐衝撃【装着したまま専用充電ドック使用可能】薄型設計クリア GM-NS225PVCRN

4位

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

5位

キングダム 68 (ヤングジャンプコミックス)

キングダム 68 (ヤングジャンプコミックス)

小説

1位

イン・ザ・メガチャーチ (日本経済新聞出版)

イン・ザ・メガチャーチ (日本経済新聞出版)

2位

忌録: document X

3位

国宝上青春篇 (朝日文庫)

4位

国宝下花道篇 (朝日文庫)

5位

ザ・ロイヤルファミリー（新潮文庫）

ザ・ロイヤルファミリー（新潮文庫）

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!