To Trust Or Not To Trust Your Vision-Language Model's Prediction
Created by
Haebom
저자
Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink
개요
본 논문은 Vision-Language Model (VLM)의 신뢰도 추정을 위한 훈련이 필요 없는 프레임워크인 TrustVLM을 제안합니다. VLM은 다양한 응용 분야에서 뛰어난 성능을 보이지만, 잘못된 예측을 자신 있게 내놓는 오류에 취약합니다. TrustVLM은 VLM의 모달리티 간 차이와 이미지 임베딩 공간에서 특정 개념이 더 명확하게 표현되는 점에 착안하여 새로운 신뢰도 점수 함수를 제안합니다. 17개의 다양한 데이터셋과 4개의 아키텍처, 2개의 VLM을 사용하여 평가한 결과, 기존 기준 모델에 비해 AURC, AUROC, FPR95에서 각각 최대 51.87%, 9.14%, 32.42% 향상된 성능을 보였습니다. 재훈련 없이 모델의 신뢰성을 향상시켜 실제 응용 분야에서 VLM의 안전한 배포를 가능하게 합니다. 코드는 https://github.com/EPFL-IMOS/TrustVLM 에서 이용 가능합니다.