「丁寧に話せばAIは賢くなる」は幻想か?

今回の研究を進めるにあたって、研究チームはまず、ある大手企業(Amazon)の実際のチャット対話のデータを詳しく分析することにしました。
つまり、本当にユーザーは人間相手とAI相手で言葉遣いが違うのかを調べるために、普段どのような言葉が使われているか、現実のデータを覗いてみたわけです。
用意したのは、人間のカスタマーサポート担当者とユーザーが実際に交わした「人対人」の会話データと、AIのチャットボット(対話型AI)とユーザーが交わした「人対AI」の会話データです。
こうした対話データはそれぞれ大量に集められましたが、今回使われたデータは、学習用として「人間同士のやり取りが13,000件」、AIの性能をテストする評価用として「AI相手のやり取りが1,357件」です。
こうして用意したデータから、個人情報などを削除した上で、「人対人」と「人対AI」でユーザーの話し方がどう変わるかをじっくりと分析しました。
では実際にどんなポイントをチェックしたかというと、次の6つの基準でそれぞれのメッセージを採点しています。
具体的には、
①文法が正しく使われているか、
②言葉遣いが丁寧かどうか(敬語が使われているか)、
③使われている言葉の種類が多いか(語彙が豊富か)、
④情報が具体的にきちんと伝わっているか(情報の具体性)、
⑤表現が明確でわかりやすいか、
⑥気持ちや感情がどれくらい表現されているか、
という6つの観点から、AIモデル(チェーン・オブ・シンキング法=chain-of-thought、AIに段階的に考えさせて判断させる方法)を使って、丁寧にスコアリング(採点)しました。
さて、気になる結果ですが、これが実に明確なものでした。
AI相手の会話と人間相手の会話を比べると、はっきりとした違いが現れたのです。
AI相手のメッセージでは、人間相手のときよりも文章が短くなり、言葉遣いがぶっきらぼうになりやすく、敬語もあまり使われませんでした。
人間のカスタマーサポートに対しては「お願いします」や「ありがとうございます」などの丁寧で礼儀正しい表現がよく使われましたが、AIのボットにはそれらがぐっと減ったのです。
実際のスコアを比べると、「丁寧さ・形式的な表現」のスコアは、AI宛てのメッセージのほうが人間宛てよりも14.5%も低くなっていました。
また、文法の正確さもAI相手のほうが5.3%低下しており、使われる言葉の種類も少し少ない傾向がありました。
つまりAIに対して人は、敬語や細かな表現をかなり省略し、言葉遣いが雑でタメ口に近づいてしまう傾向が明らかになったわけです。
しかし、ここで興味深いのは、言葉遣いが丁寧ではなくても、メッセージの内容そのもの(情報の具体性や明確さ、気持ちの表現)にはほぼ差がなかったことです。
つまりユーザーはAIに対しても、自分が伝えたい用件自体はきちんと伝えていました。
例えば、「これを教えていただけますか?」と丁寧に聞くかわりに、「これ教えてよ」と短くぶっきらぼうに聞いているだけで、伝えている情報自体は変わらなかったのです。
言い換えれば、「礼儀や丁寧な言い回しは省くけれども、本当に伝えたいことはそのまま伝えている」という状態ですね。
それでは、人がAIに対してだけ、このように言葉遣いを崩してしまうのはなぜでしょうか。
研究チームは、この理由を「私たちユーザーが持っているAIへのイメージ」と関係があるのではないかと考えました。
つまりユーザーが「AIは感情がなく、言葉遣いが雑でも特に問題ない」と無意識に感じているからこそ、丁寧に話す必要を感じないのかもしれません。
実験からも、「AIは社会的に鈍感で、丁寧に話さなくても理解してくれるだろう」というユーザーの考え方が、言葉遣いに影響を与えている可能性が示唆されています。
あえて比喩を使えば、ユーザーはAIを「機械なんだし、多少雑に話しても平気だろう」と無意識に判断しているようなものかもしれません。
しかし、先にも触れたように、ここに大きな問題が隠れていました。
AIはこれまで、人間同士の丁寧な会話を学習して、そのスタイルに慣れ親しんでいます。
そのためユーザーが急にフランクでぶっきらぼうな話し方をすると、学習時の丁寧な会話スタイルとのギャップに戸惑ってしまい、本来の性能を発揮できなくなってしまう可能性があります。
研究チームはこのギャップによってAIの理解力が低下する可能性を指摘しました。
そこで研究チームは、このギャップを解決するために2つの方法を試してみました。
1つ目は、AI側の訓練データにあらかじめ多様な話し方の例を混ぜる方法です。
これは丁寧な言葉遣いだけではなく、「ちょっと雑な口調」や「短くてぶっきらぼうな言葉遣い」も最初から学ばせておくという方法です。
言ってみれば、AIに「色々な方言」を最初から学習させるイメージですね。
2つ目の方法は、ユーザーがAIに入力する言葉を、AIに届ける前に自動で丁寧な言葉に書き換えるという方法です。
例えばユーザーが「これ教えてよ」と短く入力しても、AIが受け取る前に「これを教えていただけますか?」というふうに自動で丁寧に変換してしまうという方法です。
要するに、AIが理解しやすいように人間に対するような「礼儀正しい言葉遣い」に変えてしまおうという試みですね。
では、その結果はどうだったのでしょうか。
まず訓練データを多様化する方法では、AIの性能が実際に向上しました。
ぶっきらぼうな表現や丁寧すぎる言葉遣いなど、いろいろな話し方を最初から学習したAIは、実際のユーザーからの雑な言葉遣いに対しても理解力が向上しました。
具体的には、ユーザーが何を求めているかをAIが正しく理解できる割合が、従来の方法より約2.9%(相対)高くなったのです。
数字だけ見ると小さいようですが、実際には多くのユーザーとのやり取りでの誤解が減ることを意味しています。
しかし、意外なことにもう一つの方法、ユーザーの言葉を丁寧に書き換える方法はうまくいきませんでした。
それどころか逆効果で、AIの理解力は約1.9%(相対)ほど低下してしまいました。
研究チームによれば、この原因は、丁寧に書き換える過程で、元の短く雑な言葉に含まれていた「微妙なニュアンスや手がかり」が失われたり、文章が不自然になるためではないかと考えています。
つまり、言葉遣いを丁寧に整えればAIの理解力が上がるという「言い換え神話」は、残念ながら普遍的現象ではなかったということです。