每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

用于统一医学多模态生成的具有 MLLM 的离散扩散模型

Created by
  • Haebom

作者

毛家伟、王雨涵、陈立峰、赵灿、唐玉成、杨东、屈良琼、徐大光、周玉银

大纲

MeDiM 是首个面向医疗保健的分布式扩散模型,它整合了包括图像、病理和临床记录在内的各种医疗数据,以进行学习和推理。MeDiM 执行多项生成任务,包括图像到文本的转换和图像到报告对的生成,并通过一个共同的概率空间将视觉表征和语言表征连接起来。它利用先验知识和跨模态推理,以多模态大规模语言模型 (MLLM) 作为扩散主干。实验结果表明,MeDiM 能够生成高质量的医疗数据和准确的报告,并通过共同生成图像到报告对进一步提升性能。

Takeaways, Limitations

提出第一个集成各种医疗模式的分布式扩散模型。
能够执行各种创建任务,例如创建图像、文本和图像报告对
利用MLLM的先验知识和跨模态推理能力
具有生成高级医疗数据和报告的能力
通过共同生成的图像报告对来提高下游性能。
论文中没有具体提及Limitations。
👍