Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats

Created by
  • Haebom
Category
Empty

저자

Jiaye Qian, Ge Zheng, Yuchen Zhu, Sibei Yang

개요

본 연구는 대규모 비전-언어 모델(LVLMs)의 환각 현상에 대한 개입 프레임워크를 제안합니다. 트랜스포머의 인과적 아키텍처에 맞춰 이미지-입력 텍스트, 이미지-출력 텍스트, 텍스트-텍스트 경로 간의 상호 작용을 분석하여 환각의 원인을 규명합니다. 특히 질문-답변 정렬 형식에 따라 다른 경로에 의존함을 밝혀냈습니다. 이를 바탕으로 차별적 및 생성적 형식에 맞춘 환각 헤드를 식별하고 개입하는 간단하고 효과적인 방법을 제안하며, 다양한 벤치마크에서 환각 감소 효과를 입증했습니다.

시사점, 한계점

LVLMs의 환각은 단일 경로가 아닌 여러 경로의 상호 작용으로 발생한다는 점을 밝힘.
질문-답변 정렬 형식에 따라 다른 경로에 의존한다는 새로운 발견.
환각을 줄이기 위한 효과적인 개입 방법 제안.
차별적 및 생성적 형식에 특화된 방법론 제시.
다양한 벤치마크에서 일관된 환각 감소 효과 입증.
구체적인 한계점은 논문 상세 내용에서 확인 필요. (본 응답에는 구체적인 한계점 제시 X)
👍