본 논문은 수술 영상 기반의 자동화된 수술 중 의사결정, 기술 평가 및 수술 후 질 향상을 위한 수술 영상 기초 모델(FM) 개발의 어려움을 해결하기 위해, 대규모 다양한 데이터셋을 활용한 사전 학습 및 체계적인 평가를 위한 통합적인 수술 영상 벤치마킹 프레임워크인 SurgBench를 제시한다. SurgBench는 사전 학습 데이터셋인 SurgBench-P (22가지 수술 절차, 11개 전문 분야에 걸쳐 5300만 프레임)와 평가 벤치마크인 SurgBench-E (단계 분류, 카메라 움직임, 도구 인식, 질병 진단, 행동 분류, 장기 탐지 등 6가지 범주에 걸쳐 72가지 세분화된 작업)로 구성된다. 실험 결과, 기존 비디오 FM은 다양한 수술 영상 분석 작업에서 일반화하는 데 어려움을 겪는 반면, SurgBench-P를 사용한 사전 학습은 성능 향상과 미지의 절차 및 모달리티에 대한 우수한 도메인 간 일반화를 제공한다.