AIが優秀なら患者は医師ではなくAIに尋ねても良いのか?
近年、ChatGPTなどの大規模言語モデル(LLM)は急速に進化し、専門家レベルの知識を獲得しています。
AIが今と比べて未発達だった2023年でさえ、米国医師免許試験(USMLE)に相当する問題に対して90%以上の正答率を誇り、実際の医師や研修医を上回るパフォーマンスを見せました。
こうしたAIの能力を活用すれば、病院に行かずとも、症状を入力するだけで正しい病名と対処法を得られるのではないかと期待する人も多いでしょう。
しかし、オックスフォード大学の研究チームは、「AIが優れていること」と「人間がそのAIをうまく使えること」はまったく別問題であることを実証しました。

研究では、合計1298名のイギリス人参加者(専門家ではない)を対象に、肺炎から風邪まで、様々な架空の医療シナリオを提示しました。
例えば「20歳の大学生が友人と外出中に突如激しい頭痛に襲われる」といったシナリオがあります。
その中には、「下を向くのも辛い」といった重要な医学的情報だけでなく、「常習的に飲酒し、6人の友人とアパートをシェアし、ストレスの多い試験を終えたばかり」といった誤解を招く情報も含まれています。
そして、そのシナリオを3つの方法で分析しました。
- AI単体(GPT-4o、Llama3、Command R+など)
- 参加者がAIを用いる
- 参加者のみ(AIを使わず検索エンジンなどで自分で情報収集する)
それぞれのケースで、症状シナリオから「どんな病気だと思うか」「どのように対処すべきか(救急車、救急外来、かかりつけ医、自宅療養)」を判断するよう求められました。
その後、それらの回答と、医師チームが全員一致で出した「正解」が比較されました。
ではどんな結果になったのでしょうか。