两款AI智能体在临床决策中的表现超越医生
两款基于大语言模型的AI智能体在虚拟测试中展示出媲美乃至超越医生的临床决策能力但研究人员表示目前尚不具备在真实医疗环境中部署的条件。这两款智能体分别是由德国学术研究人员开发的MIRA以及谷歌开发的AMIE相关研究成果已发表于《自然》期刊。研究表明大语言模型在医疗领域具备成为综合性工具的潜力能够承担诊断分析、患者管理、制定护理计划等任务远超其目前在医疗场景中仅用于辅助诊断等单一功能的应用边界。MIRA医疗智能推理与行动系统综合患者病史、实验室检验、影像及微生物检测数据在八种测试病症中的诊断准确率与不同经验层级医生及委员会认证医师相当在部分病症尤其是胰腺炎的诊断上甚至表现更优。此外MIRA在手术操作排序、静脉输液管理及镇痛药使用等任务中同样优于医生其99.8%的用药建议被评定为正确治疗决策也与临床指南的吻合程度更高。AMIE医疗智能表达探索系统则与全科医生进行了对比测试。结果显示AMIE生成的治疗方案和检查计划评分更高、针对性更强在多项指标上达到非劣效性标准且在数值层面优于对照组。两支研究团队均得出结论尽管上述结果令人期待但在投入真实临床实践之前大语言模型仍需经过前瞻性研究的验证尤其是在部分案例中仍存在与推荐做法相悖的情况。爱丁堡大学健康信息学与数据科学教授朱莉·雅科对这两项研究给予了高度评价认为两项研究均严谨扎实但同时指出这些性能表现是在模拟环境中取得的无法完整还原真实临床决策的复杂性。牛津大学社会学家凯瑟琳·波普教授也持相近观点她表示这些研究距离日常医疗中混乱、复杂、充满人情味的真实世界还有相当距离——在那里医生往往需要应对不完整甚至相互矛盾的数据。她补充道这些技术在现实中的应用必须与临床医生协同推进。它们不太可能取代医生况且许多人认为AI在本质上无法也不应该替代医疗中至关重要的人文关怀。心脏病学家、斯克里普斯研究转化研究所所长埃里克·托波尔从临床视角提出了一个关键局限MIRA和AMIE均为纯文本AI也就是说医疗实践中的诸多要素——从患者的非语言表达和语气到实际医学影像的读取——都未被纳入其中。他同时表示这些大语言模型将持续进化。事实上上述两篇论文中使用的模型已经过时。可以将MIRA和AMIE视为在模拟条件约束下迈出的重要一步而非真正意义上的临床医学。但AI能力的提升速度极快将这些优势延伸至真实医疗实践或许并不遥远。QAQ1MIRA在临床诊断中的准确率如何AMIRA在八种测试病症中的诊断准确率与不同经验层级医生及委员会认证医师相当在部分病症上表现更优尤其是胰腺炎的诊断。此外其99.8%的用药建议被评定为正确治疗决策与临床指南的吻合程度也高于对照医生组。Q2AMIE与全科医生相比表现如何AAMIE生成的治疗方案和检查计划在评分和针对性上均优于全科医生在多项指标上达到非劣效性标准且在数值层面表现更优。但研究团队强调这些结果来自模拟环境尚需前瞻性研究验证才能真正应用于临床实践。Q3MIRA和AMIE目前能否在真实医疗场景中使用A目前还不能。研究人员指出这两款智能体均在模拟环境中测试无法完整反映真实临床的复杂性。此外两者均为纯文本AI无法处理医学影像或捕捉患者的非语言信息。专家普遍认为未来应用需与临床医生协同而非替代医生。