胸部 X 光 (CXR) 的广泛使用以及由此导致的放射科医生短缺,导致人们对自动化 CXR 分析和 AI 辅助报告的兴趣日益浓厚。现有的视觉语言模型 (VLM) 在特定任务(例如报告生成和异常检测)中显示出良好的前景,但往往难以支持交互式诊断功能。在本研究中,我们提出了 RadVLM,这是一个专为 CXR 解读而设计的紧凑、多任务、交互式基础模型。为此,我们构建了一个包含超过一百万个图像-指令对的大规模指令数据集,涵盖单轮任务(例如报告生成、异常分类和视觉原理生成)以及多轮、多任务交互式交互。在此指令数据集上对 RadVLM 进行微调后,我们将其与重新实现的基线 VLM 在各种任务上进行了评估。RadVLM 在对话功能和视觉原理生成方面取得了最高的性能,并且在其他放射学任务中保持了竞争力。这项消融研究凸显了跨多任务联合训练的优势,尤其是在标注数据有限的场景下。这些结果展现了 RadVLM 作为临床相关 AI 助手的潜力,它能够提供结构化的 CXR 解读和对话功能,从而支持更高效、更便捷的诊断工作流程。