每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

RadVLM:一种用于放射学的多任务会话视觉语言模型

Created by
  • Haebom

作者

尼古拉斯·德佩罗瓦、松尾秀俊、塞缪尔·鲁佩雷斯-坎皮略、莫里茨·范登赫兹、索尼娅·拉古纳、阿兰·瑞瑟、藤本浩二、西尾瑞穗、托马斯·M·萨特、朱莉娅·E·沃格特、乔纳斯·克鲁克特、托马斯·弗劳恩菲尔德、克里斯蒂安·布鲁·乌特根、法哈德·诺拉扎德、迈克尔·克劳萨默

大纲

胸部 X 光 (CXR) 的广泛使用以及由此导致的放射科医生短缺,导致人们对自动化 CXR 分析和 AI 辅助报告的兴趣日益浓厚。现有的视觉语言模型 (VLM) 在特定任务(例如报告生成和异常检测)中显示出良好的前景,但往往难以支持交互式诊断功能。在本研究中,我们提出了 RadVLM,这是一个专为 CXR 解读而设计的紧凑、多任务、交互式基础模型。为此,我们构建了一个包含超过一百万个图像-指令对的大规模指令数据集,涵盖单轮任务(例如报告生成、异常分类和视觉原理生成)以及多轮、多任务交互式交互。在此指令数据集上对 RadVLM 进行微调后,我们将其与重新实现的基线 VLM 在各种任务上进行了评估。RadVLM 在对话功能和视觉原理生成方面取得了最高的性能,并且在其他放射学任务中保持了竞争力。这项消融研究凸显了跨多任务联合训练的优势,尤其是在标注数据有限的场景下。这些结果展现了 RadVLM 作为临床相关 AI 助手的潜力,它能够提供结构化的 CXR 解读和对话功能,从而支持更高效、更便捷的诊断工作流程。

Takeaways, Limitations

Takeaways:
RadVLM 为 CXR 解释提供交互功能,改善临床诊断工作流程。
RadVLM 擅长处理各种任务,包括生成报告、分类异常和呈现视觉证据。
即使注释数据有限,多任务的联合训练也是有效的。
Limitations:
论文中没有指定Limitations。
👍