AIが救急トリアージで医師を上回った、その意味
ハーバード・メディカルスクールがOpenAIの推論モデルと医師数百人を真っ向から比較した。救急外来の早期診断でAIは67%、医師は50〜55%。差は本物だ。ただ、研究者自身が最も警戒しているのは「これでAIに任せられる」と読む空気のほうだ。
「医師を超えた」と書ける数字、書きたくない但し書き
ハーバード・メディカルスクールとベス・イスラエル・ディーコネス医療センター(Beth Israel Deaconess Medical Center、以下BIDMC)の研究チームが、OpenAIの推論モデルo1-previewと現役の臨床医を、臨床推論の幅広いタスクで比較した結果が4月30日付で科学誌『Science』に掲載された。狙いは単純で、AIが医師の日常業務、つまりカルテを読んで診断と次の一手を決める作業をどこまでこなせるかを測ることだ。
実験のひとつは、ボストンの病院に運ばれてきた救急外来患者76人のデータを使う。AIと医師2人組のそれぞれに、バイタル、人口統計、看護師の数行のメモといった同じ電子カルテを渡し、診断を求める。結果はAIが67%で正解または近似診断にたどり着き、医師は50〜55%にとどまった。
数字だけ見れば差は無視できない。しかし研究者たちが力を入れたのは、その先の但し書きの方だ。
情報量が増えると差は消える、消えない場所もある
詳細情報が揃った段階での診断精度は、AIが82%、専門医は70〜79%だった。共著者のアルジュン・マンライ(Arjun Manrai)氏らは「この差は統計的に有意ではない」と明記している。情報が揃った状態では、AIは医師と区別がつかない。
差が際立つのは、情報がまだ揃っていない最初期のトリアージ段階だ。看護師の走り書きと、断片的なバイタルしかない瞬間、つまり医師が一番判断に迷う場面で、AIは強い。これは「AIが医師より賢い」というより、「人間が情報不足で迷うとき、AIは迷わない」という構造の話だと思う。良くも悪くも、推論モデルは目の前のテキストから機械的に確率を絞り込む。
AIモデルは間違うこともあるし、迎合的な振る舞いをすることもある。それでも、患者と医師に実際の価値を提供している(マンライ氏、記者向けブリーフィング、4月29日)
もうひとつの実験では、46人の医師と五つの臨床ケーススタディを比較した。抗菌薬の処方計画や終末期ケアの方針といった、いわゆる「マネジメント推論」と呼ばれる長期的な治療計画の領域だ。ここでのAIスコアは89%、検索エンジンなど通常のツールを使う医師は34%にとどまった。
55ポイントの差は、診断精度の差より明らかに大きい。BIDMCの臨床フェロー、ピーター・ブロドゥール(Peter Brodeur)氏は、マネジメント推論は症例の客観的特徴に加え、文脈や状況といった主観的要素まで考慮する複雑な作業だと説明する。推論モデルがそこで強さを見せたのは、ある意味で予想どおりだったという。
「これは医師を置き換える話ではない」研究者の繰り返しの牽制
論文の共著者たちは、記者向けブリーフィングで何度も同じことを口にしている。今回の結果は、AIが医師を置き換えるという意味ではない、と。
マンライ氏は「医療を再構築する根本的な変化」が起きていると認めながらも、これを売り文句に使うであろう「AI医療系企業」を名指しで牽制した。共著者のアダム・ロッドマン(Adam Rodman)氏は、医師、患者、AIシステムの三者で構成される 三者協調型ケアモデル (triadic care model)という言葉を使う。AIが医師の隣に並ぶ存在になるという未来像だ。
私が起きてほしくないのは、いわゆる「AI医師企業」が医師を診療プロセスから外そうとしたり、臨床監督を最小化しようとすることだ。今回の結果はそうした方向を支持しない(ロッドマン氏)
研究結果が圧倒的であるほど、その結果を都合よく使う者が現れる。研究者たちはそのリスクを正面から見ている。これは医学界の自衛反応にも見えるが、内容を読む限り、慎重さは技術的な事実そのものから来ている。
何が「テストされていない」のか
論文の制約条件は明確だ。今回の比較はテキストで伝達できる情報、つまり電子カルテの記載に限定されている。患者の苦痛のレベル、視線、肌の色、呼吸の速さ、こうしたベッドサイドで医師が無意識に拾う情報はテストされていない。
これは小さい話ではない。救急外来で医師が下している判断の多くは、検査値が揃う前の数秒間、患者の見た目から飛び出してくる仮説に支えられている。今回のAIは、その手前のテキスト記述だけを見て勝負している。マンライ氏の言葉を借りれば、AIは書面に基づく第二の意見を出す臨床医のように振る舞ったに過ぎない。
最終的には、生か死かの決断、難しい治療方針、生活の質や子どもとどう遊ぶか、仕事で何ができるか、こうした判断において、人間は人間に導いてもらいたいと思うものだ(マンライ氏)
シェフィールド大が指摘した、もうひとつの危険
英シェフィールド大学数理・物理科学部のウェイ・シン(Wei Xing)氏が示した懸念は、別の角度から鋭い。AIの精度が上がるほど、医師は無意識のうちにAIの答えに従ってしまい、独立して考えなくなる、というものだ。
これは「臨床現場でAIがルーチン化されるにつれて、より深刻になる傾向だ」とシン氏は語ったと報じられている。医師の独立した思考が、AIの影に隠れて萎縮していく可能性。研究はそのリスクの計測を、まだ始めてもいない。
シン氏は別の盲点も指摘している。今回の研究は、AIがどんな患者で苦戦したのかについて、ほとんど情報を出していない。高齢者で精度が落ちるのか、英語非ネイティブの患者で誤診が増えるのか、こうした重要な情報が公開されていない。「日常の臨床利用に対してAIが安全だと示すものではないし、市販のAIツールを医療相談の代わりに使ってよいという話でもない」と彼は釘を刺している。
ベンチマーク自体が役目を終えつつある
研究の隠れた論点は、評価方法そのものの限界だ。共同筆頭著者のブロドゥール氏は、AIモデルを多肢選択式テストで評価する時代が終わりつつあると語る。最近のモデルはこうしたテストで100%近いスコアを出してしまい、進歩を測れなくなっている。
1959年以来、計算機の診断能力評価に使われてきたNEJM(New England Journal of Medicine)誌掲載の難症例も、もはやAIが「ほぼ最適に近い」精度で解いてしまうという。彼らが使っているのは、医師の訓練と評価のために1950年代に作られた仕組みだ。それを今のLLMにぶつけると、天井に張り付く。
評価指標が天井に達したという事実は、AIが医療に到達したという話ではなく、AIを測る道具がもう古いという話だ。研究チームが提案しているのは、医薬品の承認と同じように、厳密な前向き臨床試験で本当の臨床的価値を測るべきだという方向だ。
英国の現場では、すでに動き始めている
英王立内科医協会(Royal College of Physicians、以下RCP)が2025年6月に実施したスナップショット調査では、英国の医師の16%がAIツールを毎日臨床現場で使い、さらに15%が週単位で使っていると答えている。最も多い用途のひとつが「臨床判断支援」だ。
|
31%
毎日または週次
で使用
毎日
16%
週次
15%
月次
6%
まれに
33%
なし
30%
|
医師たちが最も懸念しているのは、AIの誤りと、それに伴う責任の問題だった。ロッドマン氏自身が「現時点で説明責任の正式な枠組みは存在しない」と認めている。AIが間違ったとき、誰が責任を負うのか。この問いに今のところ誰も答えられない。
エディンバラ大学医療情報学センターの共同所長、ユーウェン・ハリソン(Ewen Harrison)氏は、今回のシステムは「単に医療試験に通ったり人工的なテストケースを解いたりするだけのものではなく、臨床医にとっての有用なセカンドオピニオンツールに見え始めている」と評している。とりわけ、見落としを避けたい場面で広い鑑別診断を考えたいときに使える、というのが彼の見方だ。
セカンドオピニオン。研究者たちが繰り返すこの言葉が、おそらく現状の正確な表現だろう。
67%の重み、と、その手前にあるもの
数字には嘘がない。テキスト情報だけを与えられた条件で、AIは医師より高い確率で正しい診断にたどり着いた。これは、長年の評価指標で測れる範囲では決着がついた話だ。
ただ、医療は決着がついたタスクの集合ではない。患者を見て、家族と話し、最後の選択を一緒に決める、その一連の行為がまだ残っている。今回の研究はそこには手をつけていない。「すごい」と「これで安心」の間に、まだ何枚もの臨床試験が必要だ。
数字に圧倒される前に、研究者自身が一番心配している声を聞く価値はある。
参照元
- Science論文 - Performance of a large language model on the reasoning tasks of a physician(DOI: 10.1126/science.adz4433)
- EurekAlert(HMS公式プレスリリース) - Landmark test of clinical reasoning finds AI outperformed physicians
他参照