AGIは規模拡大だけでは達成できない

近年の人工知能は、画像を自動で生成したり、人間に近い精度で言語を理解・翻訳したりと、私たちの暮らしを大きく変えるほど進歩を遂げています。
特に「より多くのデータと大規模な計算資源さえあれば、人間相当かそれ以上の知能も獲得できる」と期待され、大型の言語モデルが注目を集めてきました。
この流れのなか、大手企業が巨額の資金を投入し、「規模拡大こそがすべて」という風潮が勢いを増しています。
しかし、これまでの研究を振り返ると、単に学習の規模を大きくするだけでは解決できない課題も多いことがわかってきました。
たとえば基本的な推論力や生活上の常識といった要素が、ただ拡大したモデルだけで身につくのかどうか、はっきりしないのです。
大学や研究所の専門家の中には、「いまの深層学習をただ大きくすれば足りる、という考え方に限界が見えはじめている」と指摘する声が増えてきました。
実際、一部の専門家は「一部の分野では性能が鈍化し始めた」と見る向きもあります。
そこで今回、大学・企業・公的機関といった多様な所属の研究者475名に対し、「現行の大規模アプローチだけで本当に汎用知能が得られるのか」という点を中心に意見を求めました。
特に焦点になったのは、「単にデータや計算資源を増やす方法で、どこまで“人間らしさ”に近づけるか」という問いです。
結果として、約76%が「その可能性は低い」と答え、大多数が拡大路線のみに頼る方法に懐疑的であることがわかりました。
また、「世間のイメージと実際のAI性能がどれほど乖離しているか」については、回答者の約80%が「実際よりも高く評価されすぎている」と感じていたのです。
特に大規模化したモデルは、文章や画像など特定分野ではすぐれた精度を示す反面、推論や常識的な判断が必要な場面では不安定だという声が多く上がりました。
たとえば文章応答モデルにおける「幻覚」現象――裏付けのない回答を本当のように作り出す――がその一例です。
もちろん最新モデルには対策も検討されているものの、こうした問題は「データ内のパターンを拾う」だけでは十分に解決しきれないという指摘が主流でした。
さらに「世界の知識をどう蓄え、状況に応じて取り出すか」も大きな課題とされます。
人間は幼児期から五感を通じて得た体験や文脈を総合的に扱うため、実環境とどう関わるかが知能の根幹になるという見方が強いのです。
文字・画像データを膨大に集めるだけで、因果や動機づけなどの深い理解まで獲得できるわけではないのでは、といった疑念が多くの研究者から挙がっています。
実際、ロボットが環境を操作しながらデータを得る研究は、大規模モデルとは異なる学習効果を示す例として注目を集めています。
たとえばアーム型ロボットで物体を押したり持ち上げたりしている実験では、行動と結果との対応を自らのセンサー情報から学びとることで、いわゆる“因果を推定する”ような処理が促されるという報告があるのです。
これは単なるデータ拡大とは異なるアプローチで、「行動→結果」を身をもって獲得している点が特徴とされています。
これらの意見はAGIが誕生するには規模拡大だけでなくAIに「肉体」を与えなければならない可能性を示しています。
もしかしたらAI開発の現場は将来的に、まるでオリンピックの室内競技場のような広い空間でロボットたちが肉体を動かしているのかもしれませんね。