Sign In

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

Created by
  • Haebom
Category
Empty

저자

Trinh T. L. Vuong, Jin Tae Kwak

개요

ViDRiP-LLaVA는 단일 패치 이미지, 자동 분할 병리 비디오 클립, 수동 분할 병리 비디오를 통합하는 계산 병리학 분야 최초의 대규모 멀티모달 모델(LMM)입니다. 이 모델은 병리학자의 자연스러운 진단 과정을 모방하며, 상세한 조직학적 설명을 생성하고 최종적인 진단 보고를 통해 시각적 내러티브와 진단적 추론을 연결합니다. 핵심은 YouTube의 교육용 조직병리학 비디오에서 파생된 4278개의 비디오 및 진단별 chain-of-thought 지침 쌍으로 구성된 ViDRiP-Instruct 데이터 세트입니다. 제한적인 양의 고품질 데이터 문제를 해결하기 위해 기존의 단일 이미지 지침 데이터 세트에서 지식을 이전하여 약하게 주석 처리된 키 프레임 추출 클립에 대한 학습을 진행하고, 수동으로 분할된 비디오에 대한 미세 조정을 수행합니다. ViDRiP-LLaVA는 병리학 비디오 분석의 새로운 벤치마크를 설정하며, 통합된 시각적 및 진단적 추론을 통해 임상 의사 결정을 지원하는 미래의 AI 시스템을 위한 기반을 제공합니다.

시사점, 한계점

병리 비디오 분석 분야의 새로운 벤치마크 설정
임상 의사 결정을 지원하는 AI 시스템 개발의 가능성 제시
ViDRiP-Instruct 데이터 세트 구축을 통해 진단 추론 능력 향상
고품질 데이터의 부족 문제를 지식 이전 기법으로 해결
제공된 데이터, 코드 및 모델을 통해 접근성 및 재현성 확보
데이터 생성의 시간 소요 및 데이터 양의 한계
👍