Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models

Created by
  • Haebom
Category
Empty

저자

Ashish Seth, Dinesh Manocha, Chirag Agarwal

개요

본 논문은 대규모 비전-언어 모델(LVLMs)의 환각 현상 문제를 해결하기 위해, 문맥 추론 프롬프트를 이용한 환각 공격을 통해 LVLMs의 환각 수준을 평가하는 새로운 시각적 질의응답(VQA) 벤치마크인 HALLUCINOGEN을 제안합니다. HALLUCINOGEN은 이미지 내에서 쉽게 인식 가능한 뚜렷한 개체(예: 자동차)와 도메인 지식이나 문맥 추론이 필요한 잠재적 개체(예: 흉부 X선 사진에서 질병 식별)로 시각적 개체를 분류합니다. 이후, 다양한 비전-언어 작업(이미지 내 특정 개체 위치 확인 또는 추론 등)에서 두 유형의 개체에 대한 환각 공격을 설계하여 LVLMs의 환각을 평가합니다. LLaMA-3.2, DeepSeek-V2, Gemini 등 11개의 LVLMs와 두 가지 환각 완화 전략을 여러 데이터셋에서 광범위하게 평가한 결과, 현재 LVLMs는 여전히 환각 공격에 취약함을 보여줍니다.

시사점, 한계점

시사점:
LVLMs의 환각 문제를 체계적으로 평가하는 새로운 벤치마크 HALLUCINOGEN을 제시.
뚜렷한 개체와 잠재적 개체에 대한 환각 공격을 통해 LVLMs의 환각 취약성을 명확히 규명.
다양한 LVLMs 및 환각 완화 전략에 대한 광범위한 실험 결과를 통해 현 LVLMs의 한계 제시.
한계점:
HALLUCINOGEN 벤치마크의 일반화 가능성에 대한 추가 연구 필요.
제시된 환각 완화 전략의 효과에 대한 추가적인 개선 및 검증 필요.
더욱 다양하고 복잡한 시각적 질의응답 시나리오에 대한 추가적인 평가 필요.
👍