画像
AI単体よりも、人間がAIを用いた方が診断の精度が下がる / Credit:Canva
artificial-intelligence

【精度95%→34.5%】「AI単体」の病名診断は優秀だが「一般人が自己診断にAIを使う」とダメダメになる

2025.07.10 11:30:21 Thursday

どこか体調に不安があるとき、Google検索で自分がどんな病気か調べたことがある人は多いのではないでしょうか?

頭痛がしたら「脳腫瘍?風邪?」、お腹が痛ければ「胃潰瘍?盲腸?」と、心配になる気持ちは誰にでもあるものです。

最近では、こうした症状をAIに尋ねられる時代になり、「わざわざ病院に行かなくても、AIが診断してくれる」と感じるかもしれません。

しかし、実際にAIを活用して自己診断を行ったとき、本当に精度は高いのでしょうか?

イギリスのオックスフォード大学(University of Oxford)の研究チームは、AIモデル(大規模言語モデル:LLM)は単独では約95%の精度で正しい病名を特定できるにもかかわらず、人間がそのAIを使って診断しようとすると、正解率が34.5%にまで落ち込むと報告しました。

この研究成果は2025年4月26日付の『arXiv』で発表されました。

Just add humans: Oxford medical study underscores the missing link in chatbot testing https://venturebeat.com/ai/just-add-humans-oxford-medical-study-underscores-the-missing-link-in-chatbot-testing/
Clinical knowledge in LLMs does not translate to human interactions https://doi.org/10.48550/arXiv.2504.18919

AIが優秀なら患者は医師ではなくAIに尋ねても良いのか?

近年、ChatGPTなどの大規模言語モデル(LLM)は急速に進化し、専門家レベルの知識を獲得しています。

AIが今と比べて未発達だった2023年でさえ、米国医師免許試験(USMLE)に相当する問題に対して90%以上の正答率を誇り、実際の医師や研修医を上回るパフォーマンスを見せました。

こうしたAIの能力を活用すれば、病院に行かずとも、症状を入力するだけで正しい病名と対処法を得られるのではないかと期待する人も多いでしょう。

しかし、オックスフォード大学の研究チームは、「AIが優れていること」と「人間がそのAIをうまく使えること」はまったく別問題であることを実証しました。

画像
AIを使った自己診断の精度は? / Credit:Canva

研究では、合計1298名のイギリス人参加者(専門家ではない)を対象に、肺炎から風邪まで、様々な架空の医療シナリオを提示しました。

例えば「20歳の大学生が友人と外出中に突如激しい頭痛に襲われる」といったシナリオがあります。

その中には、「下を向くのも辛い」といった重要な医学的情報だけでなく、「常習的に飲酒し、6人の友人とアパートをシェアし、ストレスの多い試験を終えたばかり」といった誤解を招く情報も含まれています。

そして、そのシナリオを3つの方法で分析しました。

  • AI単体(GPT-4o、Llama3、Command R+など)
  • 参加者がAIを用いる
  • 参加者のみ(AIを使わず検索エンジンなどで自分で情報収集する)

それぞれのケースで、症状シナリオから「どんな病気だと思うか」「どのように対処すべきか(救急車、救急外来、かかりつけ医、自宅療養)」を判断するよう求められました。

その後、それらの回答と、医師チームが全員一致で出した「正解」が比較されました。

ではどんな結果になったのでしょうか。

次ページAI単体では優秀でも、一般人が自己診断に使うと精度はガタ落ちする

<

1

2

>

人気記事ランキング

  • TODAY
  • WEEK
  • MONTH

Amazonお買い得品ランキング

スマホ用品

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!