人の脳活動をスキャンして見ているものを再現するAIを開発！ / Credit:Yu Takagi, Shinji Nishimoto . High-resolution image reconstruction with latent diffusion models from human brain activity . bioRxiv (2022)

artificial-intelligence

人の脳活動をスキャンして見ているものを画像化するAIを開発！

2023.03.09 18:00:12 Thursday

AIには何が見えているのでしょうか？

大阪大学で行われた研究によって、人間の脳活動をスキャンするだけで、その人物が何を見ていたかを80%という高精度で再現する脳スキャンAIが開発されました。

この仕組みは人間の視界をリアルタイムで再現することを可能にしており、上手く応用できれば、自分の夢の風景を記録したり、動物がどんなふうに世界をみているかを知ることが可能になるでしょう。

また仕組みも非常にユニークであり、脳活動から人間の視界を的中させるためのエンジンとして、ここ数年話題になっている「文章を画像にしてくれるAI」が利用されています。

しかしそれをどうやって脳活動から視界を読み取るAIに変換したのでしょうか？

研究内容について書かれている論文は2023年の6月に開催されるコンピュータービジョンの国際会議『CVPR 2023』に採択されました。

また論文はプレプリントサーバーである『bioRxiv』でも公開されています。

High-resolution image reconstruction with latent diffusion models from human brain activity https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full

1兆匹の大発生！「素数セミ」の羽化周期が重なり一斉羽化

なぜカメは長寿なのか？極端に老化速度と死亡率が低いカメの謎

NASAが宇宙空間で「鉛筆」を使おうとしなかった理由とは？宇宙で文字が書ける「フィッシャー・スペースペン」の凄さ

時速300kmの極限世界！レーサーの「瞬き」に隠された秘密

動画一覧

人の脳活動をスキャンして見ているものを再現するAIを開発！

思い描いた風景や頭に響いたメロディーをそのままキャンバスや譜面に描いてくれる便利道具は、かつてはSFの世界にのみ存在していました。

しかしAI技術の進歩によってSFは現実のものになりつつあります。

実際、世界各国の研究室から毎月のように、人間の脳活動を読み取って、人間が見聞きしている風景や音楽を再現する（当てる）「脳スキャンAI」が、競うように発表されています。

しかし既存の方法で新たな脳スキャンAIを作るには、膨大な被験者の脳活動を画像や音楽と結び付ける学習を行わせる必要があり、非常に大きな手間とコストがかかっていました。

そこで今回、大阪大学の研究者たちは、既存のAIを流用することで、よりシンプルな方法で脳スキャンAIを作る方法を考え出しました。

流用元に選ばれたのは、近年流行になっている「文章から画像を作ってくれるAI（Stable Diffusion）」でした。

Stable Diffusionは宇宙飛行士とタグ付けされた画像や馬とタグ付けされた画像など、膨大な画像と関連する名前の関係性を学習することで作られています。

Stable Diffusionは文章の内容を画像に変換してくれるAIです / Credit:wikipedia

この便利なAIに「馬に乗った宇宙飛行士」と文章で入力すると、上の図のように、本当にそれらしい画像を出力してくれます。

AIを使った画像生成は著名なアーティストも利用しており、オプション機能を付けることでまるで芸術家のような作品を出力してくれるようになります。

そのクオリティーの高さはプロ並みであり、一部の人々に「絵師」の仕事がAIに取られてしまうのではないかと心配させるほどでした。

実際にStable Diffusionを使ってみた / Credit:Stable Diffusion

このときStable Diffusionは打ち込まれた人間の言語を「AIの言語」に置き換えて（エンコードし）、それを「AIの脳内」で絵に変換し（潜在表現を作成し）、最後に私たちの目の前に画像として提示します。

ただStable Diffusionにあるのはあくまで文章を画像にする機能だけです。

Stable Diffusionを使って脳スキャンAIを作るには、画像をみたときの人間の脳活動パターンをStable Diffusionが理解できるように「AIの言葉」に上手く変換してくれる追加の翻訳AIが必要となります。

そこで研究者たちは、以前の研究によって公開されている、4人の人間にそれぞれ1万枚の画像をみせたときの脳活動パターンの9割を使って、どんな画像がどんな脳活動と関連しているかを翻訳AIに教え込みました。

（※残りの1割はテスト用データになりました）

また1万枚の画像にはそれぞれ何が映っているかを説明する文章（たとえば馬の写真なら「馬」というテキストで書かれた意味情報）が付属していたため、この意味情報と脳活動パターンの関係も追加で学ばせました。

この2つの学習によって、脳活動パターンから、作るべき画像の「視覚情報」と「意味情報」を翻訳する2種類のAIが誕生し、画像生成AI「Stable Diffusion」にも2通りの情報を「AIの言葉」の形で入力することが可能になりました。

次に研究者たちは性能チェックをするため、テスト用データから選び出した被験者の脳活動パターンを翻訳AIを通してStable Diffusionに提示し、画像を作ってもらいました。

（※1000枚の画像をみたときの被験者たちの脳活動パターンを提示し、彼らが何を見ていたかを1000枚の画像を生成することで当ててもらいました）

人がみていたものを脳活動から高精度で再現できる。悪用すれば視界を盗撮できるかもしれない / Credit:Yu Takagi, Shinji Nishimoto . High-resolution image reconstruction with latent diffusion models from human brain activity . bioRxiv (2022)

結果、被験者たちが見ていた画像を、脳活動パターンだけで、80%の制度で再構成することに成功しました。

（※このとき提示された脳活動パターンは翻訳AIによって視覚情報と意味情報を示す2種類の「AIの言葉」に翻訳され、それぞれがStable Diffusionに流れ込み、双方がよく一致する画像が生成されました）

既存のAIではこの精度を得るために、より多くのデータや学習時間が必要ででした。

そのため研究者たちは、新たに作られた2種類の翻訳AIとStable Diffusionの組み合わせシステムはより効率的であると結論しました。

しかしもっとも興味深いのは、AIシステムの中心部分にあるStable Diffusionには一切の改造を行っていない点にあります。

これまである目的のために作られたAIを別目的に流用するのは困難と考えられていましたが、新たなAIシステムは翻訳AIの存在のお陰で、システムのエンジンとも言えるStable Diffusionはそのままで運用できたのです。

もし将来的にAIの流用技術が進歩するならば、AIの機能はより複合的なものになるかもしれません。

そうなると気になるのが、AIの中身です。

AIは情報を内部で「AIの言葉」に変換し「AIの脳活動」といえるもので処理します。

しかし既存の技術ではAIの学習効率を改善することはできても、AIの内部を覗き見ることはできませんでした。

AIは学習によってコンピューター内部に人間の脳のようなニューラルネットを形成していきますが、人間にはどの回路が何をしているかがわからないのです。

ですが今回の研究では、あえてAIの内部を覗き見る試みが行われました。

次ページAIの内部を覗き見る

人気記事ランキング

人の脳活動をスキャンして見ているものを画像化するAIを開発！

人の脳活動をスキャンして見ているものを再現するAIを開発！

日用品

スマホ用品

ゲーム

小説