前沿|OpenEvidenceAI成为第1个在美国医学执照考试中得分超过90%的人工智能

本文作者：百配健康 2年前 (2023-07-15)

2023年07月14日（马萨诸塞州剑桥）致力于将大型语言模型 (LLM) 与医学领域结合起来的生成人工智能 ( […]

2023年07月14日（马萨诸塞州剑桥）致力于将大型语言模型 (LLM) 与医学领域结合起来的生成人工智能 (AI) 公司OpenEvidence 宣布OpenEvidence AI 已成为历史上第1个人工智能美国医师执照考试 (USMLE) 成绩达到 90% 以上。此前，ChatGPT 和 Google 的 Med-PaLM 2 等 AI 的得分分别为 59% 和 86%。

“随着 OpenEvidence AI 成为历史上第一个在美国医疗执照考试 (USMLE) 上得分超过 90% 的人工智能，人工智能 (AI) 的前景再次被重新定义。该基准的单点差异转化为人工智能性能上具有高度影响力的差异，因为 USMLE 包含数百个问题，并且每个额外的 USMLE 分数代表多个额外的正确答案 – 每一个都对应于可能转化为患者生或死的医学知识，如果人工智能系统在临床环境中被用作医生副驾驶，” OpenEvidence 创始人Daniel Nadler博士说。“ 2016 年 BMJ 发表的一项被广泛引用的研究据估计，医疗错误是美国第三大死亡原因，仅次于心脏病和癌症。在这种规模下，任何能够增强医生能力并在绝对基础上减少医疗错误（哪怕是 5-10%）的系统，仅对美国数以万计的患者的生活就会产生巨大的影响。相对而言，以以前最先进的系统为基准，OpenEvidence AI 在美国医疗执照考试中的错误比 ChatGPT 少 77%，比 Google 的 Med-PaLM 2 少 31%，从而在 USMLE 上实现所有人工智能历史上最低的错误率。考虑到医学错误造成的不成比例的影响，以这种方式考虑这些人工智能的相对表现是公平的。”

生成式人工智能和美国医疗执照考试

USMLE 是美国医疗执照的三步考试。它评估医生应用知识、概念和原则的能力，以及展示以患者为中心的基本技能，这些技能构成了安全有效的患者护理的基础。USMLE 是一项严格的考试，要求对生物医学和临床科学有广泛的了解，不仅测试事实记忆，还测试决策能力。人工智能在 USMLE 上取得了 90% 以上的分数——这在 18 个月前几乎是不可想象的壮举——展示了人工智能（特别是 OpenEvidence）在理解和应用复杂医学概念方面取得的巨大进步。

截至2023 年7 月 11日，GPT-4 和 ChatGPT 均错误回答 (A) 血培养，而 OpenEvidence AI 正确回答 (C) 人类白细胞抗原 B27 测定。

信息	来源
OpenEvidence AI Becomes the First AI in History to Score Above 90% on the United States Medical Licensing Examination (USMLE)	https://www.prnewswire.com/news-releases/openevidence-ai-becomes-the-first-ai-in-history-to-score-above-90-on-the-united-states-medical-licensing-examination-usmle-301877056.html
免责声明	本资料仅作参考，诊疗请遵医嘱。