脳は「AIと人の違い」を拾い始めていた
脳波データを詳しく分析したところ、研究チームは興味深い変化を見つけました。
訓練の後、脳波解析では、人間の声とAI音声に対する脳の反応に差が表れていたのです。
その違いが見られたのは、音が始まってから約55ミリ秒、210ミリ秒、455ミリ秒のタイミングでした。
55ミリ秒というのは、人が意識して「これはAIだ」と判断するよりもかなり早い段階です。
少なくとも今回の解析では、私たちが意識して答えを出すより前に、脳の聴覚系が音の違いに反応している可能性が示されたことになります。
ただし、ここで大事なのは、脳波なら何を見ても差が出たわけではないという点です。
違いが見られたのは主にTRF解析(音声の変化と脳の反応の時間的な対応を見る脳波解析)で、他の脳波解析では、はっきりした差は確認されませんでした。
つまり「脳全体が完全に見抜いていた」というより、「脳の一部の反応には違いが現れ始めていた」と捉えるほうが正確です。
では、AI音声と人間の声の違いはどこにあるのでしょうか。
研究チームが音声そのものを分析したところ、両者の違いは「5.4〜11.7ヘルツ」という帯域に表れました。
これは、音節の立ち上がりや、子音から母音へ移るときのような、ごく短い時間の変化に関わる部分です。
人間の声は、声帯や口の形の動きによって複雑な揺らぎが生まれます。
AI音声も文全体としてはかなり自然ですが、今回の研究では、こうした瞬間的な細かな変化に人間の声との違いが残っている可能性が示されました。
それでも私たちがその違いを自覚しにくいのは、単にまだ聞き慣れていないからかもしれません。
研究者はこれをわかりやすい例えで説明しています。
たとえばパンダです。
飼育員は個体ごとの違いを見分けられますが、一般の人にはどのパンダも似て見えることがあります。
これはパンダに違いがないのではなく、一般の人は、まだどこを見ればいいかを知らないのです。
ワインも同じです。
初心者にはどれも似た味に感じられても、慣れた人には香りや味の違いがはっきりわかります。
AI音声も同じで、私たちの耳はまだ「どの違いに注目すればよいか」を十分に学んでいないのでしょう。
研究チームがこの結果を前向きに見ているのは、わずか12分の訓練でも脳の反応が変わったからです。
人の判断はすぐには変わらなくても、脳の側では違いを拾う準備が始まっているのかもしれません。
今後は、もっと長い訓練を行ったときに本当に判別能力が上がるのか、あるいはもっと長い会話や自然な通話の中でも同じことが起こるのかを調べる必要があります。
また、AI音声と人間の声を分ける決め手となる音響特徴が何なのかを、さらに詳しく突き止める研究も重要になりそうです。



























![よーく聞いてね!3つのヒントで学ぶ!どうぶつカード ([バラエティ])](https://m.media-amazon.com/images/I/51zT3OcliFL._SL500_.jpg)






















