# ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

### 저자

Trinh T. L. Vuong, Jin Tae Kwak

### 개요

ViDRiP-LLaVA는 단일 패치 이미지, 자동 분할 병리 비디오 클립, 수동 분할 병리 비디오를 통합하는 계산 병리학 분야 최초의 대규모 멀티모달 모델(LMM)입니다. 이 모델은 병리학자의 자연스러운 진단 과정을 모방하며, 상세한 조직학적 설명을 생성하고 최종적인 진단 보고를 통해 시각적 내러티브와 진단적 추론을 연결합니다. 핵심은 YouTube의 교육용 조직병리학 비디오에서 파생된 4278개의 비디오 및 진단별 chain-of-thought 지침 쌍으로 구성된 ViDRiP-Instruct 데이터 세트입니다. 제한적인 양의 고품질 데이터 문제를 해결하기 위해 기존의 단일 이미지 지침 데이터 세트에서 지식을 이전하여 약하게 주석 처리된 키 프레임 추출 클립에 대한 학습을 진행하고, 수동으로 분할된 비디오에 대한 미세 조정을 수행합니다. ViDRiP-LLaVA는 병리학 비디오 분석의 새로운 벤치마크를 설정하며, 통합된 시각적 및 진단적 추론을 통해 임상 의사 결정을 지원하는 미래의 AI 시스템을 위한 기반을 제공합니다.

### 시사점, 한계점

- 병리 비디오 분석 분야의 새로운 벤치마크 설정

- 임상 의사 결정을 지원하는 AI 시스템 개발의 가능성 제시

- ViDRiP-Instruct 데이터 세트 구축을 통해 진단 추론 능력 향상

- 고품질 데이터의 부족 문제를 지식 이전 기법으로 해결

- 제공된 데이터, 코드 및 모델을 통해 접근성 및 재현성 확보

- 데이터 생성의 시간 소요 및 데이터 양의 한계

[PDF 보기](https://arxiv.org/pdf/2505.04192)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).