知識量だけじゃ突破不能:AGIへの壁は高い

チェスや将棋、そして囲碁など、人間にとって難解とされてきたボードゲームでAIが勝利を収めるたび、メディアは「AIが人間を超えた」と大きく取り上げてきました。
さらに画像認識や自然言語処理といった応用分野でも、深層学習(ディープラーニング)の登場によって飛躍的な性能向上が実現しています。
こうしたニュースを目にすると、多くの人が「このままAIが発展すれば、いずれ“なんでもできる汎用人工知能(AGI)”に到達するのではないか」と期待してしまうのも無理はありません。
ところが、AI研究者の間では以前から、「特定分野での強さ」と「どんな状況にも柔軟に対応できる汎用性」は別問題だと考えられてきました。
歴史を振り返ると、アラン・チューリングが提案した“Turing Test”や、その後の“Winograd Schema Challenge”“BIG-Bench”など、AGIの多面的な能力を測ろうとする試みは何度も行われてきました。
しかし多くのベンチマークが、博士号レベルの問題に正解できるかなど“高度な知識や言語能力”に偏ってきたため、まったく性質の異なる日常的な思考や直観を要する課題ではAIが苦戦する、という構造的なアンバランスが続いていました。
このギャップに着目し、2019年に登場したのが「ARC-AGI」と呼ばれる新しいベンチマークです。
人間が「パッと見ただけでルールをつかめる問題」にもかかわらず、AIにとっては“単純な暗記”では突破できないよう設計されているのが大きな特徴でした。
実際、ARC-AGI-1と名付けられた初代ベンチマークで、多くの先端AIモデルが苦戦を強いられ、人間の思考プロセスと機械の違いがはっきりと浮き彫りになったのです。
とはいえ、その後の研究やKaggleの「ARC Prize」コンテストを通じ、一部のモデルはARC-AGI-1で高いスコアを示すようになりました。
オープンAIの高度なAIシステムなども改良を進め、「人間に近い汎用的推論が見えてきたのでは?」という期待が2024年頃には高まりました。
しかし同時に、「それらのモデルが本当に未知の問題に適応しているのか?」という疑問や、「巨大計算による brute force 的なアプローチに頼っているだけでは?」という批判も強まったのです。
そもそもAGIは、人間のように少しのヒントでも新しい状況に応用できる能力が求められ、大量の計算リソースだけでは解決にならない可能性が高い――この認識が背景にありました。
そこで開発されたのが「ARC-AGI-2」です。
今回の新バージョンは効率性を強く意識し、AIの演算コストや推論コストを厳しく見る設計になっています。
さらに、文脈依存のルールや複雑なシンボル操作を含む多彩なパズルを加え、「人間なら短時間で対応できるのに、AIにはなかなか難しい」状況を提示することを重視しているのです。
こうした背景から、研究者たちは「人間が当たり前にこなす省コストな思考を、AIがどこまで再現できるか」を検証するために大規模実験を実施しました。