每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MedVAL:利用语言模型实现专家级医学文本验证

Created by
  • Haebom

作者

阿萨德·阿里、瓦西利基·比基亚、玛雅·瓦尔马、妮可·邱、索菲·奥斯特梅尔、阿尔纳夫·辛格维、马格达里尼·帕斯卡利、阿什温·库马尔、安德鲁·约翰斯顿、卡里马尔·阿马多尔-马丁内斯、爱德华多·胡安·佩雷斯·格雷罗、保拉·纳奥维·克鲁斯·里维拉、塞尔吉奥斯·加蒂迪斯、克里斯蒂安·布鲁斯根、爱德华多·庞特斯·雷斯、埃迪·D·赞迪·范Rilland、Poonam Laxmappa Hosamani、Kevin R Keet、Minjoung Go、Evelyn Ling、David B. Larson、Curtis Langlotz、Roxana Daneshjou、Jason Hom、Sanmi Koyejo、Emily Alsentzer 和 Akshay S. Chaudhari。

大纲

本文提出了一种名为 MedVAL 的新方法,用于评估医疗环境中使用的语言模型 (LM) 的准确性和安全性。现有的人工医生评审方法成本高昂且难以获取,通常需要专家撰写的参考输出。MedVAL 是一种数据高效、基于自监督学习的提炼方法,它训练评估者语言模型 (LM) 来评估其生成的医学文本是否与输入在事实上一致。我们使用包含 840 个医生注释输出的 MedVAL-Bench 数据集,评估了十个最先进的语言模型 (LM)。MedVAL 提炼显著提升了现有模型的性能,提高了与人类医生评估的一致性,并使性能最佳的专有模型 GPT-4o 的性能接近专家医生的表现。通过发布代码、数据集和预训练模型,我们为医疗保健领域的 AI 集成提供了一条可扩展且具有风险意识的途径。

Takeaways, Limitations

Takeaways:
提出一种高效且可扩展的方法来评估医学文本生成 LM(MedVAL)的准确性和安全性。
证明基于自我监督学习的蒸馏方法的有效性,该方法无需医生注释即可提高 LM 性能。
通过发布 MedVAL-Bench 数据集和预训练模型来支持研究和开发。
我们提供证据表明,LM 在验证 AI 生成的医学文本方面的表现接近专家级。
Limitations:
依赖合成数据的局限性(与真实数据的差异)
您可能尚未达到完全专家级别。
需要进一步研究来检验 MedVAL-Bench 数据集的多样性和通用性。
👍