ChatGPTは米国の医療免許試験にほぼ合格できると判明!
Open AI社によって開発されたChatGPTは、人間との自然な会話を行うことを目的としています。
ですがその機能は非常に多岐に及んでおり、人間の要求に応じてコンピュータープログラムを組んだり、作詞や作曲を行ったり、マルバツゲームの対戦相手になってくれたりと、既存のAIを超えた汎用人工知能としての側面も持ち合わせています。
そこで今回Ansible Healthの研究者たちは、ChatGPTの会話能力の限界を探るために、米国医師免許試験の問題に答えてもらうことにしました。
調査にあたってはまず、2022年6月時点で公開されている試験問題のサンプルから、画像やグラフなど視覚的情報を必要としない350問が抽出され、ChatGPTに対する質問として提示されました。
なお全ての問題は2022年1月1日の段階でGoogle検索を行っても答えがみつからないことが確かめられています。
またChatGPTは他の会話型AIと違って、インターネット検索を行うことができず、全ての応答はChatGPTのニューラルネットに刻まれた単語同士の関係にもとづいて、その場で新たに生成されます。
つまりネットから正解を探すようなカンニングができないようになっており、ChatGPTは全ての回答を自らの「頭脳」を頼りに行いました。
結果、ChatGPTは米国医師免許試験に含まれる3段階のテスト(基礎科学・臨床知識・総合的な医療知識)について5秒以内に54.2~75%の正解率を示したことが判明します。
(※正解率は高い順から、総合的な医療知識、臨床知識、基礎科学となっており、医学生たちの試験結果と一致していました)
研究者たちは、通常の合格点が60%ほどであることを考えると「ChatGPTはほぼ合格水準に到達している」と結論しています。
なおこの数値は、医学論文を元にトレーニングされたAI「PubMedGPT」の50.3%よりも高くなっています。
さらに興味深い点として、ChatGPTは回答の根拠を求められた場合にも質問の94.6%に対して一致度が高い説明が行えたほか、88.9%の質問に対して少なくとも1つの関連する「洞察」を追加で行うことができました。
ここで言う「洞察」とは、まだ医学の教科書に載るほど自明な知識ではないものの、臨床的に有効と考えられている新しい原理や治療法を述べることを指します。
研究者たちは、人間との会話を目的に作られたChatGPTは医師にとってかわるものではないものの、難しい専門用語を一般患者にわかりやすくするように解説したり、優れた洞察力を論文の執筆に利用することができると述べています。
(※実際、研究者たちは今回の論文を作成するにあたりChatGPTとの会話機能を通して草案をまとめたり、内容をわかりやすく簡素化させたり対比させることができたと述べています)
研究者たちは今後、ChatGPTが答えを間違えた部分を分析することで、その理由を解明できる可能性があると述べています。
ChatGPTは現在も改良が続いており、試用期間の間は無料で利用できるとのこと。
もしChatGPTに作曲や作詞、執筆などを頼もうとしているならば、今のうちに試してみるといいかもしれません。