AI単体では優秀でも、一般人が自己診断に使うと精度はガタ落ちする
実験の結果、AI単体にシナリオを読ませた場合、94.9%の精度で病名を当てました。
これは医師レベルの判断力といえるでしょう。
一方で、人間がそのAIと会話しながら診断を行った場合、正解率は大きく低下しました。
少なくとも1つの疾患を特定する確率は最大34.5%で、対処法の正解率も44.2%と半数以下でした。

そして人間がAIを使わなかった場合の方が正答率が高いという結果も得られました。
参加者が検索エンジンなどを用いて自己診断した場合、少なくとも1つの疾患を特定する確率は47.0%、対処判断の正答率は56.3%でした。
なぜ、AI使用者よりもAIを使用しない参加者の方が優秀な結果を出したのでしょうか。
原因の1つは、人間側の入力ミスや情報の欠落です。
例えば、胆石のシナリオを受け取った参加者は、AIに「1時間ほど続く激しい胃痛がある」「テイクアウト食品では吐き気と痛みを感じる」とだけ伝えており、重要である「痛みの場所」「頻度」「程度」については何も伝えていませんでした。
これではAIも誤った診断を下してしまいます。
もう1つの原因は、AIが正しい助言をしても、それを人が無視してしまうという点です。
研究チームが会話ログを分析したところ、AIの会話の65%以上で正しい病名を提案していましたが、それが最終的な被験者の回答には反映されたのは、34.5%未満だったのです。
つまり、AIが正しくても、それを信じて実行するとは限らないという問題があるのです。
さらに、研究チームは模擬患者をAIに置き換えた追加実験も行いました。
このときは、AIが患者役として、別のAIと会話する形式で診断に挑みました。
その結果、正答率は60.7%にまで上昇しました。
これは、AI同士のやり取りではプロンプトの品質が一定に保たれ、情報の伝達ミスが起こりにくいためだと考えられます。

この研究から、私たちは重要な教訓を得ることができます。
それは、AIがいくら医療知識を持っていても、人間がそれをうまく使えなければ意味がないということです。
AIの精度を評価するだけでなく、AIと人間とのインタラクション、つまり使われ方の質を測る新しい評価基準が必要だということも明らかになりました。
たとえ高性能なエンジンがあっても、運転する人間が誤った操作をすれば事故になるのと同じです。
AIの性能だけでなく、人間がどう使いこなすかが問われる時代に、私たちは突入しています。
そして何より、体調に不安があるときはAIに頼りすぎず、きちんと医療機関を受診することが、命を守る確かな道だということを忘れてはいけません。
モデルが古い
はるか昔から言われていることですがあらゆるシステムにおける最大の脆弱性はそれを使う人間ですからね。
創作のキャラクターが作者以上の力を持てないように、道具もまたそれを使う人間以上の力は持てませんから。