ViDRiP-LLaVA는 단일 패치 이미지, 자동 분할 병리 비디오 클립, 수동 분할 병리 비디오를 통합하는 계산 병리학 분야 최초의 대규모 멀티모달 모델(LMM)입니다. 이 모델은 병리학자의 자연스러운 진단 과정을 모방하며, 상세한 조직학적 설명을 생성하고 최종적인 진단 보고를 통해 시각적 내러티브와 진단적 추론을 연결합니다. 핵심은 YouTube의 교육용 조직병리학 비디오에서 파생된 4278개의 비디오 및 진단별 chain-of-thought 지침 쌍으로 구성된 ViDRiP-Instruct 데이터 세트입니다. 제한적인 양의 고품질 데이터 문제를 해결하기 위해 기존의 단일 이미지 지침 데이터 세트에서 지식을 이전하여 약하게 주석 처리된 키 프레임 추출 클립에 대한 학습을 진행하고, 수동으로 분할된 비디오에 대한 미세 조정을 수행합니다. ViDRiP-LLaVA는 병리학 비디오 분석의 새로운 벤치마크를 설정하며, 통합된 시각적 및 진단적 추론을 통해 임상 의사 결정을 지원하는 미래의 AI 시스템을 위한 기반을 제공합니다.