Sign In

How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

Created by
  • Haebom
Category
Empty

저자

Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo

개요

본 논문은 비디오 생성 모델이 물리적 세계를 시뮬레이션하는 데 있어 잠재력을 보이지만, 깊고 전문적인 인과적 지식이 필요한 수술과 같은 분야에서는 아직 탐구되지 않은 간극이 있음을 지적합니다. 이 문제를 해결하기 위해, 논문은 수술 분야의 비디오 생성 모델 평가를 위한 최초의 전문가 큐레이션 벤치마크인 SurgVeo와, 기본 외관에서 복잡한 수술 전략까지 모델 출력을 평가하는 4단계 프레임워크인 Surgical Plausibility Pyramid (SPP)를 제시합니다. Veo-3 모델을 사용하여 랩 및 신경외과 수술 클립에 대한 제로샷 예측을 수행하고, SPP에 따라 생성된 비디오를 수술 전문의들이 평가했습니다. 결과는 시각적 지각 타당성은 뛰어나지만, 기구 조작 타당성, 환경 피드백 타당성, 수술 의도 타당성 등 SPP의 상위 단계에서는 심각한 실패를 보였습니다. 이는 시각적으로 설득력 있는 모방과 수술 AI의 인과적 이해 사이의 간극을 보여주는 최초의 정량적 증거입니다.

시사점, 한계점

SurgVeo 및 SPP를 통해 수술 분야의 비디오 생성 모델 평가를 위한 새로운 벤치마크 및 프레임워크 제시
Veo-3 모델의 제로샷 예측 실험을 통해 시각적 타당성은 높지만, 인과적 이해가 부족함을 입증
시각적 모방과 수술의 인과적 이해 사이의 간극을 최초로 정량적으로 제시
수술 AI의 미래 모델 개발을 위한 중요한 기반 및 로드맵 제공
본 연구는 Veo-3 모델에 국한되었으며, 다른 모델에 대한 일반화 필요
수술 전문의의 주관적 평가에 의존하는 부분 존재
SPP의 각 단계별 평가 기준의 세분화 및 추가 연구 필요
👍