의료 영상 질의응답(Med-VQA)에서 기존 연구들은 영상을 전체적으로 해석하여 중요 정보가 포함된 관심 영역을 간과하는 한계가 있습니다. 본 논문은 최소한의 주석(예: 바운딩 박스)으로 의사의 사전 지식을 통합하여 이 문제를 해결하고자 R-LLaVA를 제안합니다. R-LLaVA는 CLIP을 통해 간단한 의료 주석을 이미지 공간에 직접 통합하여 LLaVA 모델의 학습에 활용함으로써 생의학 질의에 대한 이해도를 높입니다. 네 개의 표준 Med-VQA 데이터셋에 대한 실험 결과, R-LLaVA는 기존 최첨단(SoTA) 방법보다 우수한 성능을 보였습니다. 또한, 시각적 이해 능력을 검증하기 위해 새로운 다지선다형 의료 시각 이해 데이터셋을 제시하여 관심 영역에 집중하는 것이 생의학 VQA 이해 향상에 긍정적인 영향을 미침을 확인했습니다.
시사점, 한계점
•
시사점:
◦
최소한의 주석을 활용하여 의사의 사전 지식을 효과적으로 Med-VQA 모델에 통합하는 새로운 방법 제시.
◦
기존 SoTA 모델보다 우수한 성능을 보이는 R-LLaVA 모델 개발.
◦
새로운 다지선다형 의료 시각 이해 데이터셋 제시를 통해 모델의 시각적 이해 능력 검증 및 관심 영역 집중의 중요성 확인.