본 논문은 비디오 생성 모델이 물리적 세계를 시뮬레이션하는 데 있어 잠재력을 보이지만, 깊고 전문적인 인과적 지식이 필요한 수술과 같은 분야에서는 아직 탐구되지 않은 간극이 있음을 지적합니다. 이 문제를 해결하기 위해, 논문은 수술 분야의 비디오 생성 모델 평가를 위한 최초의 전문가 큐레이션 벤치마크인 SurgVeo와, 기본 외관에서 복잡한 수술 전략까지 모델 출력을 평가하는 4단계 프레임워크인 Surgical Plausibility Pyramid (SPP)를 제시합니다. Veo-3 모델을 사용하여 랩 및 신경외과 수술 클립에 대한 제로샷 예측을 수행하고, SPP에 따라 생성된 비디오를 수술 전문의들이 평가했습니다. 결과는 시각적 지각 타당성은 뛰어나지만, 기구 조작 타당성, 환경 피드백 타당성, 수술 의도 타당성 등 SPP의 상위 단계에서는 심각한 실패를 보였습니다. 이는 시각적으로 설득력 있는 모방과 수술 AI의 인과적 이해 사이의 간극을 보여주는 최초의 정량적 증거입니다.
시사점, 한계점
•
SurgVeo 및 SPP를 통해 수술 분야의 비디오 생성 모델 평가를 위한 새로운 벤치마크 및 프레임워크 제시
•
Veo-3 모델의 제로샷 예측 실험을 통해 시각적 타당성은 높지만, 인과적 이해가 부족함을 입증