症例が少ない症状の診断もAIには難しいはず

GPT-4、眼科医の専門性評価試験で研修医をしのぐ好成績。ただし懸念も

Image:mingazitdinov / Shutterstock

ケンブリッジ大学臨床医学部が発表した最新の研究で、OpenAIのGPT-4が眼科医師向けの多肢選択式の模擬試験を行い、研修医やまだ経験の浅い若手の医師よりも高いスコアを記録したと発表した。

PLOS Digital Healthに掲載されたこの研究には、眼科専門医5人、眼科研修医3人、専門外の若手医師2人が参加。さらにGPT-4に加えて、GPT-3.5、GoogleのPaLM 2、MetaのLLaMAといった大規模言語モデル(LLM)を対象として、全87問の問題をテストした。なお、各LLMは事前に問題に関する分野のトレーニングを行わない状態で試験を受け、3度の回答チャンスのなかで明確な回答を出せなかった場合、その問題は不正解とした。

テストの採点結果では、GPT-4が87問中60問を正解した。これは研修医や若手医師を上回る結果だった。若手医師はこの問題の平均正答数37問と苦戦し、研修医は平均59.7問でGPT-4と僅差だった。

一方、眼科専門医5人の結果としては、一人が56点と低かったものの、平均正答数は66.4点に達し、GPT-4に勝っていた。他のLLMの成績PaLM 2が49問、GPT-3.5は42問、LLaMAは28点だった。

注意すべきは、今回の試験は問題数が少なく、出題範囲が異なれば結果も異なる可能性がある。LLMがいわゆる「幻覚を見る」現象はいまも完全には改修されておらず、問題によって解答精度が大きくばらつく可能性もある。

さらに、試験問題として出された内容は研修医向けの教科書から作成されたもので、一般には出回っていない内容だった。にもかかわらず、GPT-4だけがかなり好成績だったことに関して、研究者らはOpenAIがプロジェクトを行っている期間の間に、出題範囲を含む何らかのトレーニングをLLMに施した可能性があるのではないかとしている。なお、GPT-4はいくつかの質問で、理由もなく不正確な解答しか出せなかったとも、研究者は述べている。GPT-4に限らず、AIは症例がほとんどない病気に関してはトレーニング量が不足するため、正しい診断を下すのは難しくなる。

とはいえ、LLMが一部とはいえ人間を上回る正答率を記録したことに関して、研究者らは肯定的に捉えている。このテスト自体は2023年半ばに実施されていたものであるため、それ以降これまでの間に、LLMが複雑なクエリを理解し、回答することが遙かにうまくなっている可能性があるとした。

実際のところ、患者の診断にAIを使う世の中がやってくるまでには、まだしばらくの時間が必要だろう。診察の最中にAIが幻覚を見て、デタラメな治療方法を提案するようなことは絶対にあってはならない。ただ、いずれにせよ今回の研究に関しては、研究者らはGPT-4の優れたパフォーマンスに感銘を受けたとしている。

関連キーワード: