Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PAS : Prelim Attention Score for Detecting Object Hallucinations in Large Vision--Language Models

Created by
  • Haebom
Category
Empty

저자

Nhat Hoang-Xuan, Minh Vu, My T. Thai, Manish Bhattarai

개요

대규모 시각-언어 모델(LVLM)은 강력하지만, 객체 환각으로 인해 신뢰성이 떨어진다. 본 연구에서는 많은 환각 예측에서 LVLM이 이미지를 무시하고 이전에 생성된 출력(prelim) 토큰에 의존하여 새로운 객체를 추론한다는 것을 보여준다. 이미지와 예측된 객체 간의 상호 정보를 계산하여 이 행동을 정량화하고, 약한 이미지 의존성이 환각과 강하게 관련되어 있음을 입증한다. 이를 기반으로, 사전 훈련 없이 주의 가중치에서 계산되는 가벼운 신호인 Prelim Attention Score (PAS)를 소개한다. PAS는 추가적인 순방향 패스를 요구하지 않으며 추론 중에 실시간으로 계산될 수 있다. 이전에 간과되었던 신호를 활용하여 PAS는 여러 모델과 데이터셋에서 최고 수준의 객체 환각 감지를 달성하여 실시간 필터링 및 개입을 가능하게 한다.

시사점, 한계점

LVLM의 객체 환각 문제 해결에 기여: LVLM이 이미지를 무시하고 이전 토큰에 의존하는 경향을 발견하고, 이를 활용하여 객체 환각을 감지하는 새로운 방법을 제시.
PAS의 효과적인 객체 환각 감지 능력: PAS는 추가적인 훈련 없이도 여러 모델과 데이터셋에서 객체 환각을 효과적으로 감지하여 실시간 필터링 및 개입을 가능하게 함.
경량화된 방법론: PAS는 추가적인 순방향 패스를 요구하지 않아, 추론 중에 실시간으로 계산 가능.
한계점: 구체적인 모델 및 데이터셋에 대한 PAS의 성능 제한, 환각 감지를 넘어 환각을 완전히 해결하는 기술에 대한 추가 연구 필요.
👍