When to Trust the Answer: Question-Aligned Semantic Nearest Neighbor Entropy for Safer Surgical VQA
Created by
Haebom
Category
Empty
저자
Dennis Pierantozzi, Luca Carlini, Mauro Orazio Drago, Chiara Lena, Cesare Hassan, Elena De Momi, Danail Stoyanov, Sophia Bano, Mobarak I. Hoque
개요
수술 분야에서 VQA(Visual Question Answering)의 안전성과 신뢰성을 확보하기 위해 불확실성 추정을 연구합니다. 특히, QA-SNNE(Question Aligned Semantic Nearest Neighbor Entropy)라는 새로운 불확실성 추정 방법을 제안합니다. QA-SNNE는 질문의 의미를 예측 신뢰도에 통합하여, 의료 텍스트 임베딩 공간에서 생성된 답변을 가장 가까운 이웃과 비교하여 의미적 엔트로피를 측정합니다. EndoVis18-VQA 및 PitVQA 데이터셋에서 PEFT 모델과 zero-shot LVLM을 포함한 다양한 모델을 평가했으며, QA-SNNE가 대부분의 경우 AUROC를 향상시키고 환각 감지를 개선하는 것을 확인했습니다.
시사점, 한계점
•
QA-SNNE는 질문의 의미를 고려하여 VQA 모델의 불확실성을 효과적으로 추정합니다.
•
LVLM 기반 모델과 QA-SNNE의 결합은 안전성을 향상시키고 임상의의 신뢰를 높일 수 있습니다.
•
PEFT 모델은 약간의 재구성에 취약한 반면, LVLM은 더 강력합니다.
•
QA-SNNE는 in-template 및 out-of-template 환경 모두에서 우수한 성능을 보입니다.
•
연구는 EndoVis18-VQA 및 PitVQA 데이터셋에 국한되어 있으며, 다른 의료 VQA 데이터셋에 대한 일반화는 추가 연구가 필요합니다.
•
모델의 성능은 여전히 개선의 여지가 있으며, 더 다양한 모델과 데이터셋에 대한 평가가 필요합니다.