医療ガバナンス学会 (2023年8月15日 06:00)
北大医学部
金田侑大
2023年8月15日 MRIC by 医療ガバナンス学会 発行 http://medg.jp
2023年3月10日に、私たちは「ChatGPTは日本の医師国家試験を突破できるか?」という問いに挑む論文を発表しました。GPT-3.5を搭載したChatGPTを用いて行ったこの初回の試みで、全体正答率は55%程度に留まりました。これは合格基準には満たないものの、AIの臨床現場での高い潜在性を示す結果でした。大きな反響を呼び、多数のメディアで取り上げていただきました。
しかし、驚くべきことに、その僅か4日後、さらに強化されたバージョンであるGPT-4がリリースされたのです。新たなGPT-4は、「現実世界のシナリオにおいては人間に劣ることも多いが、専門的もしくは学術的なベンチマークでは人間レベルのパフォーマンスを示す」パワーアップぶりらしく、アメリカの医師国家試験では、90%以上の正答能力を持つことも報告されました。GPT-4はGPT-3.5と比べて不適切なコンテンツの要求に対応する割合が82%低下し、事実に基づいた回答を出力する確率が40%高くなったと、開発元のOpenAIからのお墨付きです。
でも、これだけ持ち上げられると実際どうなんだと気になるところです。リリースからたった半年で、一体どれほど性能が上がったというのでしょう。この疑問を明らかにすべく、2023年2月に実施された看護師国家試験を用いて、GPT-3.5とGPT-4の両モデルを用いて、再度、検証を行うに至ったのです。
今回の調査結果をまとめると、両モデルは第112回看護師国家試験の238問(削除問題などを除く)のうち237問に回答しました。その結果、GPT-3.5の全体的な正答率は59.9%と、合格基準を満たすには至りませんでした。一方、GPT-4の全体的な正答率は79.7%で、合格基準を満たすばかりか、看護師の友達に聞くと“余裕で上位合格”、という返事をもらうレベルにまで、性能が向上していることが明らかになりました。(詳しい結果はこちらをご参照ください https://www.cureus.com/articles/173248-assessing-the-performance-of-gpt-35-and-gpt-4-on-the-2023-japanese-nursing-examination#!/ )
とにかく、ChatGPTは半年で医師や看護師の国家資格に合格する十分なパフォーマンスを実現したのは事実だったようです。前回、ChatGPTの医師国家試験での正答率が55%だったころ、あと2年で追いつかなきゃな、とか考えていた私ですが、いよいよペーパーテストでChatGPTの得点を追い越すことは難しくなってきました。
今後、議論されるべきは、このようなツールをどう活用していくか、という点でしょう。ChatGPTの回答には不正確なものが存在する可能性がありますので、ユーザーの意識トレーニングなども重要です。その能力と限界を理解した上で、責任ある使用が医療従事者には求められます。
【金田侑大 略歴】
北海道大学医学部5年。医学生に限らず、最近の学生はiPadを使いこなして勉強している方が多い印象ですが、自分の勉強は圧倒的紙派で、未だに、テスト前には“オレンジペン”と“赤シート”が手放せません。ChatGPTがどうやって勉強しているのか、次の研究でぜひ明らかにしたいところです。