本文提出了一种用于机器人手术场景理解的新型视频语言模型——SurgVidLM。与专注于手术场景整体理解的现有多模态大规模语言模型 (MLLM) 不同,SurgVidLM 专注于复杂的视频推理,以分析手术过程的详细过程。为此,我们构建了 SVU-31K 数据集,这是一个包含超过 31,000 个视频描述对的大型数据集。我们引入了 StageFocus 机制,该机制包含两个阶段:首先,提取整体手术场景上下文;其次,基于时间线索进行高频局部分析。我们还开发了多频融合注意力机制,可以有效地整合低频和高频视觉标记,以保留重要的任务相关细节。实验结果表明,SurgVidLM 的性能显著优于参数规模相近的最先进的 Vid-LLM。代码和数据集即将公开。