# Cataract-LMM Large-Scale Multi-Source Multi-Task Benchmark for Deep Learning in Surgical Video Analysis

### 저자

Mohammad Javad Ahmadi, Iman Gandomi, Parisa Abdi, Seyed-Farzad Mohammadi, Amirhossein Taslimi, Mehdi Khodaparast, Hassan Hashemi, Mahdi Tavakoli, Hamid D. Taghirad

### 💡 개요

기존 백내장 수술 영상 데이터셋은 임상적, 기술적 다양성이 부족하여 일반화 가능한 딥러닝 모델 학습에 한계가 있었습니다. 이에 본 연구는 다양한 숙련도의 외과의사가 시행한 3,000개의 백내장 수술 영상으로 구성된 대규모 데이터셋인 Cataract-LMM을 제안합니다. 이 데이터셋은 수술 단계, 도구/구조물 분할, 도구-조직 상호작용 추적, 숙련도 점수 등 다층적인 주석을 포함하며, 이를 활용한 딥러닝 모델 벤치마킹을 통해 기술적 효용성을 입증합니다.

### 🔑 시사점 및 한계

- 다양한 수술 환경과 숙련도를 포괄하는 대규모 백내장 수술 영상 데이터셋을 제공하여 딥러닝 기반 수술 영상 분석 연구를 촉진합니다.

- 수술 단계 인식, 장면 분할, 도구-조직 상호작용 추적, 숙련도 자동 평가 등 다중 작업 학습 모델 개발을 위한 기반을 마련합니다.

- 서로 다른 수술 센터 간의 도메인 적응(domain adaptation) 가능성을 제시하여 모델의 일반화 성능 향상에 기여합니다.

- (한계점 또는 향후 과제) 데이터셋의 규모와 주석의 깊이를 더욱 확장하고, 다양한 수술 기법 및 합병증에 대한 분석을 포함하는 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2510.16371)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).