ある声の波長域に共通する「平均的な顔」が生成される
その結果、「Speech2Face」は以下のような精度を実現させることができた。ボイスクリップも「github」から確認できる。
一方で研究チームは「AI開発の目的は話者の顔に忠実な画像を生成することではなく、声の情報から身体的な特徴を復元することだ」と話す。
「Speech2Face」は話者個人を再現するのではなく、ある声の波長域に共通する「年齢・性別・髪の色」などを抜き出すことに特化している。そのため生成される画像は、あくまでもある音声領域における平均的な顔という訳なのだ。
そのため、顔と声に大多数の人とは異なるギャップが見られると正確な画像生成ができないという。
もしこの技術が進歩しアプリとしてスマホなどに搭載されれば、電話口の相手の顔がすぐに分かってしまうかもしれない。
末恐ろしい技術だが、おそらくクロちゃんは正確に復元されないだろう。