赤ちゃんのようにAIを学習させると「言葉の意味」に目覚め始めた
赤ちゃんのようにAIを学習させると「言葉の意味」に目覚め始めた / Credit:clip studio . 川勝康弘
artificial-intelligence

赤ちゃんのようにAIを学習させると「言葉の意味」に目覚め始めた

2025.03.03 22:00:55 Monday

沖縄科学技術大学院大学(OIST)による研究によって、ロボットがブロックで遊びながら「赤ちゃんのように」言葉を学習する取り組みが注目を集めています。

私たち人間は、熱いものに触れて「熱い」と感じたり、転んで痛い思いをしたりする中で言葉と世界を結びつけて理解していきます。

ところが従来のAIは、大量のテキストデータこそ扱えるものの、実際に体験を通じて学ぶわけではありませんでした。

今回の研究では、ロボットアームがカメラを使って物体を見ながら自らブロックを動かし、その動作と指示文(「赤いブロックを左へ移動」など)を同時に学習することで、より人間に近い“言葉の意味”の理解に到達しつつあります。

では、このように「赤ちゃんのように学ぶAI」は、果たして本当に“言葉の意味”をわかるようになるのでしょうか?

研究内容の詳細は『Science Robotics』にて発表されました。

Development of compositionality through interactive learning of language and action of robots https://doi.org/10.1126/scirobotics.adp0751

なぜ赤ちゃんは意味を知り、AIは知らない? 発達心理学から読み解く背景

近年、ChatGPTのように膨大な文章データをもとに言語処理を行う大規模言語モデルが注目を集めています。

これらのモデルは非常に流暢に文章を生成できますが、実際には「意味を体験的に理解する」という点が十分でないという指摘があります。

たとえば「熱い」「軽い」といった言葉を、人間は直接触れたり持ち上げたりする経験を通じて感覚と結びつけます。

しかし、大規模言語モデルは文字情報だけで学習しているため、実際にものを触る体験や行動の試行錯誤を含まないのです。

一方で、人間の赤ちゃんは自分の体験を通じて言葉を覚えます。

たとえば赤ちゃんは、転んで痛い思いをしながら「痛い」という言葉を学び、熱いお湯に触れて「熱い」を知るように、行動と感覚を重ね合わせながら言語を身につけていきます。

こうした「身体を通した学習」は、ただ単に単語を記憶するだけでなく、その背後にある現実の状況や行為を理解するうえで欠かせないプロセスです。

今回の沖縄科学技術大学院大学(OIST)の研究は、ロボットに「赤ちゃんが言語を覚えるようなプロセス」を取り入れることで、言葉と行動を同時に学習できるAIをめざしています。

これまでは「ロボットは指示どおりに動くが、その言葉の意味を本当に理解しているわけではない」というイメージが強かったかもしれません。

しかし、実際にブロックをつかんだり動かしたりする経験から、言葉と動作が密接に結びつくならば、AIも「赤ちゃんのように」意味をつかめる可能性があるのです。

これは従来のテキストベースの学習だけでは得られない、人間に近い理解の仕組みを作り出すうえで大きな一歩といえます。

なぜ赤ちゃんは意味を知り、AIは知らない? 発達心理学から読み解く背景
なぜ赤ちゃんは意味を知り、AIは知らない? 発達心理学から読み解く背景 / ここでは「青の上に緑を置け」という指示が与えられた場合、AIモデルがどのように行動を計画し、カメラ映像やロボットアームの動きを予測していくかが示されています。上側の写真部分はAIの認識している映像を中心に示しています具体的には (A) のパネルでは、AIの視覚作業メモリがどのように物体の情報を保持または変換しているかが示されています。 (B) のパネルでは、ロボットが撮影した背景、テーブル、他のブロックなどの静かな環境の情報がどのように記録されているかが示されています。 (C) のパネルでは、ロボットが操作対象として特に注目している部分、たとえばブロックやグリッパーの近くの画像が、どのようにモデルによって予測されているかが視覚的に表現されています。 (C) は各時点ごとの予測を詳細に示していますが、(D) では計画の最後、または最終段階での全体の映像がまとめて表示されています。 (E) のパネルでは、モデルの予測と比較するために、実際に撮影された映像(正確な現実の映像、いわゆるGround Truth)が示されています。 (F) のパネルでは、(D) で示された予測映像と (E) の実際の映像との間の、ピクセルごとの差分が計算され、可視化されています。 (G) のパネルでは、ロボットアームの各関節の動き(角度の変化)が、モデルが予測した軌跡と実際の動作を重ねて表示されています。 最後の (H) のパネルは、(G) で示された各関節角度の予測値と実際の値との平均誤差を示しています。 これらの各パネルの可視化から、ロボットがどのようにして言葉と動作を結びつけ、未知の指示に対しても目標に沿った行動計画を立てるのかが具体的にわかります。 このように、赤ちゃんが体験を通じて言葉の意味を学ぶのと同じように、ロボットも自らの動作と視覚情報を利用して意味を理解している様子が観察できます。/Credit:Prasanna Vijayaraghavan et al . Science Robotics (2025)

研究では、まずロボットアームにカメラを取り付け、白いテーブルの上に置かれた複数の色のブロックを見せながら「赤いブロックを左へ動かして」「緑のブロックを青の上に載せて」などの指令を与えました。

ブロックは赤・緑・青・黄・紫の5色で、それぞれの色を表す単語(名詞)と、“つかむ”“動かす”“上に置く”など合計8種類の動作(動詞)を組み合わせて学習させたのです。

学習自体は、ロボットが実際にブロックをつかんで動かし、カメラ映像やアームの動きを見比べながら「言葉と行動」を同時に覚えていくという仕組みで進められました。

(※この研究では、人間が脳内で行っていると考えられる「予測と誤差修正」のメカニズムをAIモデルにも取り入れている。

専門的には「予測コーディング(Predictive Coding)」や「自由エネルギー原理(Free-Energy Principle)」と呼ばれ、赤ちゃんが体験を通じて世界を理解する過程の理論的モデルを応用している。)

驚くべきは、このようにして言葉を身につけたロボットが、学んだことのない単語の組み合わせでも“正しく”動作を推測できるようになった点です。

たとえば「move red left(赤いブロックを左へ動かす)」と「put green on blue(緑色のブロックを青色の上に置く)」を別々に学習していたロボットが、まだ聞いたことのない「put red on blue(赤色を青色の上に置く)」という指令を受けても、その意味を理解してブロックを積めるようになったのです。

この結果は、単に音声やテキストとして“言葉”を覚えるだけでなく、実際の動作と結びつけることで、ロボットが人間に近い柔軟な理解の仕組みを獲得し始めていることを示唆しています。

実際には64×64ピクセルという低解像度の映像しか見えないロボットにとって、ブロックの位置や色を見分け、正しく動かすのは簡単ではありません。

それでもこの方法で訓練されたAIは、物体の特徴や動き、さらに言語表現を関連づけて考えられるようになりました。

結果として、人間が新たに与えた指令文に対しても、それを“再利用”して自分なりの行動プランを立てられるというわけです。

こうした汎化(一般化)の力こそが、今回の実験で最大の注目点と言えるでしょう。

次ページなぜ赤ちゃんのようにAIを学習させると「想像力」がつくのか?

<

1

2

>

人気記事ランキング

  • TODAY
  • WEEK
  • MONTH

Amazonお買い得品ランキング

スマホ用品

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!