每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SurgVidLM:利用大型语言模型实现多粒度手术视频理解

Created by
  • Haebom

作者

王冠坤、王君毅、莫文金、白龙、袁坤、胡明、吴金林、何君君、黄一鸣、Nicolas Padoy、雷震、刘宏斌、Nassir Navab、任宏亮

大纲

本文提出了一种用于机器人手术场景理解的新型视频语言模型——SurgVidLM。与专注于手术场景整体理解的现有多模态大规模语言模型 (MLLM) 不同,SurgVidLM 专注于复杂的视频推理,以分析手术过程的详细过程。为此,我们构建了 SVU-31K 数据集,这是一个包含超过 31,000 个视频描述对的大型数据集。我们引入了 StageFocus 机制,该机制包含两个阶段:首先,提取整体手术场景上下文;其次,基于时间线索进行高频局部分析。我们还开发了多频融合注意力机制,可以有效地整合低频和高频视觉标记,以保留重要的任务相关细节。实验结果表明,SurgVidLM 的性能显著优于参数规模相近的最先进的 Vid-LLM。代码和数据集即将公开。

Takeaways, Limitations

Takeaways:
提出了一种新颖的视频语言模型 SurgVidLM,用于理解机器人手术中的手术场景。
旨在帮助对手术过程有总体了解和详细分析
构建大规模手术视频数据集 SVU-31K
通过 StageFocus 机制和多频融合注意力增强复杂的视频推理性能。
与尖端的 Vid-LLM 相比,性能更优越
代码和数据集将公开发布
Limitations:
当前代码和数据集尚未公开。
需要进一步验证实际手术环境中的泛化性能。
需要评估该模型对各种手术类型和环境的适用性。
需要进一步解释StageFocus机制和多频融合注意力的详细运行原理和局限性。
👍