본 논문은 심장 초음파 영상의 자동 해석을 위한 비디오-언어 모델을 제시합니다. 기존의 단일 프레임 기반 모델의 한계를 극복하고자, 다양한 시점(5가지)의 전체 비디오 시퀀스를 입력으로 사용하는 모델을 개발했습니다. 60,747개의 심장 초음파 영상과 임상 보고서 쌍으로 학습된 본 모델은 단일 시점 비디오 또는 정지 영상 기반 모델보다 높은 해석 정확도를 달성했습니다. 심장 운동을 통해서만 확인 가능한 질환에 대한 진단 정확도 향상에 초점을 맞추고 있습니다.
시사점, 한계점
•
시사점:
◦
다중 시점 비디오를 활용한 심장 초음파 영상 자동 해석 모델의 우수성을 입증.
◦
단일 프레임 기반 모델보다 높은 진단 정확도 달성.
◦
심장 운동 기반 질환 진단 정확도 향상에 기여.
•
한계점:
◦
현재 모델은 특정 데이터셋에 대해서만 학습되었으므로, 일반화 성능에 대한 추가 연구 필요.