大規模言語モデルによる正確な鑑別診断に向けて
大規模言語モデル(AMIE)が臨床医の鑑別診断の精度と包括性を向上させる可能性を示した論文です。
Towards accurate differential diagnosis with large language models
要 旨
包括的な鑑別診断は、医療における基盤であり、臨床歴や身体診察、検査、処置などを統合的に解釈する反復的なプロセスを通じて導かれることが多いです。大規模言語モデル(LLM)を活用した対話型インターフェースは、このプロセスの一部を支援・自動化する新たな可能性をもたらしています。本研究では、診断推論に特化して最適化された大規模言語モデル「Articulate Medical Intelligence Explorer(AMIE)」をご紹介し、AMIEが単独または臨床医の支援として鑑別診断を生成する能力を評価しました。
20人の臨床医が、既存の症例報告から抽出された302件の難解な実臨床症例を評価しました。各症例は2人の臨床医が読み、次のいずれかの支援条件にランダムに割り当てられました:(1)検索エンジンおよび標準的な医療リソースによる支援、(2)これらに加えてAMIEによる支援です。すべての臨床医は、それぞれの支援ツールを使用する前に、無支援の状態でのベースラインの鑑別診断を提示しました。
AMIE単独でのパフォーマンスは、無支援の臨床医による診断を上回っていました(トップ10診断精度:59.1% 対 33.6%、P = 0.04)。2つの支援群を比較したところ、AMIEの支援を受けた臨床医の方が、AMIEなしで支援を受けた臨床医よりも鑑別診断の質スコアが高い結果となりました(トップ10診断精度:51.7% 対 36.1%、McNemar検定:45.7、P < 0.01)。また、検索支援のみの臨床医と比較しても、AMIE支援群の方が高スコアでした(44.4%、McNemar検定:4.75、P = 0.03)。さらに、AMIEの支援を受けた臨床医は、より包括的な鑑別診断リストを作成する傾向が見られました。
本研究は、AMIEが難解な症例における臨床医の診断推論能力および診断精度の向上に寄与する可能性を示しており、今後は医師の診断支援や専門的知見への患者アクセスの拡大を実現するツールとして、実臨床でのさらなる評価が期待されます。
A comprehensive differential diagnosis is a cornerstone of medical care that is often reached through an iterative process of interpretation that combines clinical history, physical examination, investigations and procedures. Interactive interfaces powered by large language models present new opportunities to assist and automate aspects of this process1. Here we introduce the Articulate Medical Intelligence Explorer (AMIE), a large language model that is optimized for diagnostic reasoning, and evaluate its ability to generate a differential diagnosis alone or as an aid to clinicians. Twenty clinicians evaluated 302 challenging, real-world medical cases sourced from published case reports. Each case report was read by two clinicians, who were randomized to one of two assistive conditions: assistance from search engines and standard medical resources; or assistance from AMIE in addition to these tools. All clinicians provided a baseline, unassisted differential diagnosis prior to using the respective assistive tools. AMIE exhibited standalone performance that exceeded that of unassisted clinicians (top-10 accuracy 59.1% versus 33.6%, P = 0.04). Comparing the two assisted study arms, the differential diagnosis quality score was higher for clinicians assisted by AMIE (top-10 accuracy 51.7%) compared with clinicians without its assistance (36.1%; McNemar’s test: 45.7, P < 0.01) and clinicians with search (44.4%; McNemar’s test: 4.75, P = 0.03). Further, clinicians assisted by AMIE arrived at more comprehensive differential lists than those without assistance from AMIE. Our study suggests that AMIE has potential to improve clinicians’ diagnostic reasoning and accuracy in challenging cases, meriting further real-world evaluation for its ability to empower physicians and widen patients’ access to specialist-level expertise.