Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Created by
  • Haebom

저자

Maximilian Augustin, Yannic Neuhaus, Matthias Hein

개요

본 논문은 시각 언어 모델(VLMs)의 환각(hallucination) 문제를 해결하기 위해 대규모 자동 파이프라인인 DASH를 제안합니다. DASH는 실제 이미지를 사용하여 개방형 환경에서 VLMs의 체계적인 환각을 식별하고 평가합니다. 핵심 구성 요소인 DASH-OPT는 이미지 기반 검색을 통해 VLM을 오도하는 이미지를 생성하며, DASH는 VLM이 특정 객체를 환각하는 실제 이미지와 의미적으로 유사한 이미지의 클러스터를 출력합니다. PaliGemma와 두 개의 LLaVA-NeXT 모델에 DASH를 적용하여 380개의 객체 클래스에서 19,000개 이상의 클러스터(950,000개 이상의 이미지)를 발견하고, DASH를 통해 식별된 체계적인 환각이 다른 VLMs로 전이되는 현상을 연구하며, DASH로 얻은 모델별 이미지를 사용하여 PaliGemma를 미세 조정하여 객체 환각을 완화하는 것을 보여줍니다. 코드와 데이터는 https://YanNeu.github.io/DASH에서 이용 가능합니다.

시사점, 한계점

시사점:
기존의 작고 라벨이 지정된 데이터셋 기반의 환각 평가 방식의 한계를 극복하고, 개방형 환경에서 VLMs의 체계적인 환각을 대규모로 자동으로 검출 및 평가하는 새로운 파이프라인 DASH 제시.
DASH를 통해 VLMs의 체계적인 환각을 효과적으로 식별하고, 그 전이 현상을 연구하여 모델 개선에 활용 가능성 제시.
미세 조정을 통한 환각 완화 가능성을 실험적으로 증명.
공개된 코드와 데이터를 통해 후속 연구 및 모델 개발에 기여.
한계점:
DASH가 특정 VLMs에 대해 최적화되었을 가능성. 다른 아키텍처의 VLMs에 대한 일반화 성능은 추가 연구 필요.
DASH-OPT를 통한 이미지 생성 과정의 복잡성 및 계산 비용.
환각의 원인에 대한 심층적인 분석 부족. 단순히 환각을 식별하는 것을 넘어 그 원인을 규명하고 해결하는 추가 연구 필요.
👍