본 논문은 수술 영상의 자동 요약을 위한 다중 모드 프레임워크를 제시합니다. 이는 컴퓨터 비전과 대규모 언어 모델의 발전을 활용하여 수술 절차 문서화, 수술 훈련 지원, 수술 후 분석을 향상시키는 것을 목표로 합니다. 세 단계로 구성된 이 방법은 먼저 시각적 변환기를 사용하여 수술 영상을 클립으로 나누고 프레임 수준에서 시각적 특징(도구, 조직, 장기, 수술 행위)을 추출합니다. 다음으로, 추출된 특징을 대규모 언어 모델을 통해 프레임 수준 자막으로 변환하고, ViViT 기반 인코더를 사용하여 포착한 시간적 특징과 결합하여 클립 수준 요약을 생성합니다. 마지막으로, 클립 수준 설명을 요약 작업에 맞게 조정된 전용 LLM을 사용하여 전체 수술 보고서로 집계합니다. CholecT50 데이터셋을 사용한 평가 결과, 도구 탐지 정확도 96%, 시간적 맥락 요약 BERT 점수 0.74를 달성했습니다.