Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction

Created by
  • Haebom

저자

Yuanchang Ye, Weiyan Wen

개요

본 연구는 시각 질문 응답(VQA) 과제에서 대규모 시각-언어 모델(LVLMs)의 환각(hallucination) 완화라는 중요한 과제를 분할적 공형 예측(SCP) 프레임워크를 통해 해결합니다. LVLMs는 다중 모드 추론에 탁월하지만, 출력 결과가 종종 높은 확신도를 가진 환각 콘텐츠를 보여주어 안전이 중요한 애플리케이션에서 위험을 초래합니다. 본 연구는 동적 임계값 보정과 교차 모드 일관성 검증을 통합하는 모델 비의존적 불확실성 정량화 방법을 제안합니다. 데이터를 보정 세트와 테스트 세트로 분할하여 프레임워크는 비순응 점수를 계산하여 사용자 정의 위험 수준($\alpha$)에서 통계적 보장을 가진 예측 집합을 구성합니다. 주요 혁신에는 다음이 포함됩니다. (1) 경험적 오류율이 $\alpha$보다 엄격하게 낮게 유지되도록 한계 적용 범위를 엄격하게 제어합니다. (2) 예측 집합 크기를 $\alpha$와 반비례하여 동적으로 조정하여 신뢰도가 낮은 출력을 필터링합니다. (3) 사전 분포 가정 및 재훈련 요구 사항을 제거합니다. 8개의 LVLMs를 사용한 벤치마크(ScienceQA, MMMU) 평가는 SCP가 모든 $\alpha$ 값에 대해 이론적 보장을 강화함을 보여줍니다. 이 프레임워크는 다양한 보정-테스트 분할 비율에 걸쳐 안정적인 성능을 달성하여 의료, 자율 시스템 및 기타 안전에 민감한 도메인에서 실제 배포를 위한 강력함을 강조합니다. 본 연구는 다중 모드 AI 시스템에서 이론적 신뢰성과 실용적인 적용 가능성 간의 간극을 해소하여 환각 감지 및 불확실성 인식 의사 결정을 위한 확장 가능한 솔루션을 제공합니다.

시사점, 한계점

시사점:
모델 비의존적인 불확실성 정량화 방법을 통해 다양한 LVLMs에 적용 가능한 환각 완화 프레임워크를 제공합니다.
동적 임계값 보정과 교차 모드 일관성 검증을 통해 환각 콘텐츠를 효과적으로 필터링합니다.
사용자 정의 위험 수준 ($\alpha$)에 따라 예측 집합의 크기를 동적으로 조정하여 신뢰도-정확도 트레이드오프를 제어합니다.
실제 환경 배포를 위한 안정적이고 강력한 성능을 보여줍니다.
의료, 자율 시스템 등 안전이 중요한 분야에서 신뢰할 수 있는 의사 결정을 지원합니다.
한계점:
SCP 프레임워크의 성능은 보정 데이터의 질에 크게 의존합니다. 부적절한 보정 데이터는 예측의 정확성을 저해할 수 있습니다.
계산 비용이 높을 수 있습니다. 특히, 대규모 데이터셋을 다룰 때 계산 시간이 증가할 수 있습니다.
현재 연구는 특정 VQA 벤치마크에 국한되어 있으며, 다른 응용 분야나 데이터셋으로 일반화하는 데 추가적인 연구가 필요합니다.
$\alpha$값의 선택은 주관적일 수 있으며, 최적의 $\alpha$값을 결정하는 것은 어려울 수 있습니다.
👍