Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs

Created by
  • Haebom

저자

Asif Azad, Mohammad Sadat Hossain, MD Sadik Hossain Shanto, M Saifur Rahman, Md Rizwan Parvez

개요

본 논문은 시각 언어 모델(VLMs)의 불확실성 정량화에 대한 종합적인 벤치마킹 연구를 제시합니다. 16개의 최첨단 VLM(오픈 및 클로즈 소스)을 6개의 다중 모드 데이터셋과 3가지의 서로 다른 채점 함수를 사용하여 평가함으로써, 모델의 크기가 클수록 불확실성 정량화 성능이 더 좋다는 것을 보여줍니다. 더 확신적인 모델이 더 높은 정확도를 달성하지만, 수학 및 추론 작업에서는 다른 영역에 비해 모든 모델에서 불확실성 성능이 저조했습니다. 이 연구는 다중 모드 시스템에서 신뢰할 수 있는 불확실성 평가의 기반을 마련합니다.

시사점, 한계점

시사점:
VLM의 불확실성 정량화에 대한 종합적인 벤치마킹 연구를 최초로 수행.
모델 크기와 불확실성 정량화 성능 간의 상관관계를 규명.
다양한 작업 유형에 따른 불확실성 성능 차이를 분석.
다중 모드 시스템의 신뢰성 향상에 기여.
한계점:
평가에 사용된 VLM, 데이터셋, 채점 함수의 종류가 제한적일 수 있음.
특정 유형의 불확실성만을 고려했을 가능성.
실제 응용 분야에서의 일반화 성능에 대한 검증 필요.
👍