同じ質問でも結果が揺れ動くようです
ChatGPTの健康診断、医師が「実用段階ではない」と批判

今月初め、OpenAIは「ChatGPT Health」の提供を開始した。これはChatGPT本体とは完全に切り離された専用セクションで、健康に関する質問を行える機能だ。より個人に即した回答を得るため、iPhoneの「ヘルスケア」アプリをはじめ、各種健康サービスと連係してデータを取得する。
米Washington Postの記者が、このサービスに自らのApple Watchから取得した約10年分の健康データを与えたところ、その結果は控えめに言っても芳しいものではなかったという。
記者のGeoffrey Fowler氏は、Apple Health(ヘルスケア)アプリに保存された約2900万歩分の歩数データと、約600万件の心拍数測定データへのアクセスをChatGPT Healthに許可し、心血管の「成績」を付けるよう求めた。その結果は「F」判定だった。
当然ながら不安を覚えたFowler氏は、実際の主治医に相談したが、AIによる評価は完全に否定された。医師によれば、心疾患のリスクは極めて低く、チャットボットの評価を否定するための追加検査は、保険が適用されない可能性すらあるという。
非営利研究機関・スクリプス研究所の心臓専門医であるEric Topol氏も、この解析には問題があると指摘している。ChatGPTの分析を「根拠がない」と評し、明らかに実用段階に達していないとして、「医療アドバイスは無視すべきだ」と批判した。
最大の問題は、ChatGPTの一貫性のなさである。同じ質問を何度か繰り返すと、評価はFからBまで大きく揺れ動いた。また、記録への完全なアクセス権を与えられているにもかかわらず、性別や年齢といった基本的な情報を繰り返し忘れていたという。
AnthropicのチャットボットClaudeは、わずかに良い結果を示したものの、大差はなかった。Fowler氏の心臓の健康状態をCと評価したが、Apple Watch由来のデータに内在する制約、すなわち計測精度や医療的コンテキストの欠落を十分に考慮できていなかった。
両社とも、自社のヘルスツールは医師の代替や診断を目的としたものではないと説明している。Topol氏は、これらのチャットボットが健康データを正確に評価できないのであれば、そもそも成績を付けるべきではないと指摘する。
一方、米FDA(食品医薬品局)は今月初め、AIイノベーションを促進するため「規制当局としては邪魔をしない」姿勢を示しつつ、「医療的または臨床的な主張」を行う場合には審査が必要だと線引きを行った。ChatGPTやClaudeは、あくまで情報提供にとどまるとの立場を取っており、現時点では規制対象外とされている。
Topol氏は、こうしたチャットボットによる評価が、健康な人を不必要に不安にさせたり、逆に不健康な人に誤った安心感を与えたりするリスクがあると警告している。
ChatGPT Healthは現在、限定的なベータユーザー向けに提供されている。今回の報道に対しOpenAIは、回答の一貫性向上に取り組んでいるとし、「ウェイトリスト制での提供により、一般公開前に学習と改善を行うことが目的だ」とコメントしている。
Apple Watchでは、医療機器として承認された機能が取得したデータを医師に提出でき、心房細動などの兆候をきっかけに重大な疾患が発覚した事例も繰り返し報じられてきた。ただし、そのデータの意味を読み解くのは人間の医師であり、Apple Watch自体が診断しているわけではない。AIによる健康評価は、依然として発展途上にあるようだ。
- Source: MacRumors
