猫語40単語をAIが同時通訳

研究チームはまず、猫の鳴き声を5つの大分類(食事要求、日常生活、ケンカ/防衛、発情/交配、苦情/不調)に分け、それをさらに細かい場面ごとに40種類の「声種」に定義しました。
例えば「食事」グループには「空腹を訴えるニャー(f140A)」「カリカリを食べるときのカリカリ音(f150A)」「水を飲むときのペチャペチャ音(f180A)」などが含まれます。
日常生活のグループには「母猫が子猫を呼ぶゴロニャーン(f210F)」から「トイレの後に砂をかくシャッシャッという音(f275A)」までがあり、甘えるゴロゴロから構ってほしいときの呼びかけ音まで網羅されています。
ケンカのグループには威嚇の「シャーッ(f360A)」や低いうなり声(f340A)など攻撃的な声、発情期のグループにはオス猫の独特な大声やメス猫の求愛の鳴き声が含まれます。
そして「苦情/不調」には痛みや不満を訴える声、くしゃみ(f530A)や嘔吐時の声(f520A)まで含まれており、猫が発するありとあらゆる音を40分類でカバーしたのです。
こうして整理した約2500件以上の猫の声の録音データにラベル付けし、畳み込み型ニューラルネットワーク(CNN)と長短期記憶ネットワーク(LSTM)を用いたディープラーニングモデルを訓練しました(最新版ではVisionTransformerも併用されています)。
その結果、モデルは95%以上という高い識別精度を達成し、研究チームの目標をクリアしました。
従来の手法では数十秒程度の短い鳴き声サンプルに対しせいぜい90%前後の精度が報告されていたため(しかも分類対象は9~11種類程度でした)、40種類もの細分類でこの精度は驚異的です。
さらに完成したモデルを組み込んで、研究チームはスマートフォン向けの試験アプリ(iOS)を開発しました。
このアプリにデバイスのマイクを通して猫の声を聞かせると、リアルタイムで分析が行われ、その鳴き声の種別と「意味」が画面に表示されます。
例えば猫が「ゴロゴロ」と喉を鳴らせば「満足:リラックス中」といった具合に緑色の文字が、威嚇の「シャーッ」なら「怒り:警告の威嚇」という赤文字のメッセージが表示される仕組みです。
実際に生きた猫で試験したところ、AIはニャーやシャーッ、ゴロゴロといった様々な声を正しく聞き分け、表示した翻訳メッセージも飼い主の直感とよく合致するものでした。
研究チームは論文内で「40種類を分類する包括的な猫語翻訳手法」であると述べ、その精度と範囲の広さを強調しています。
従来アプリが解読できたのは精々10種類程度の“大雑把なフレーズ”でしたが、このAI翻訳機は40種類の鳴き声を科学的に分類したデータベースに基づいて動作しており、桁違いにきめ細かな“通訳”が可能になったのです。