Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models

Created by
  • Haebom

저자

Hao Yin, Guangzong Si, Zilei Wang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 객체 환각을 완화하기 위해 널리 사용되는 대조적 디코딩 전략의 한계를 다룹니다. 대조적 디코딩은 언어적 사전 지식에 대한 과도한 의존을 줄여 시각적 입력에 기반한 정확한 출력을 생성하지만, 언어적 사전 지식을 과도하게 억제하여 일관성과 정확성을 저해하고, 대조적 입력 처리로 인해 추론 속도가 느려지는 단점이 있습니다. 이를 해결하기 위해, 본 논문은 모델의 중간 계층에서 시각 신호에 대한 주의를 강화하는 플러그 앤 플레이 기술인 Visual Amplification Fusion (VAF)을 제안합니다. VAF는 시각적 특징을 더 효과적으로 포착하여 언어 모달에 대한 모델의 편향을 줄여 환각을 감소시키면서 추론 속도와 일관성, 정확성은 유지합니다.

시사점, 한계점

시사점:
VAF는 MLLM에서 객체 환각을 효과적으로 줄입니다.
VAF는 추론 속도 저하 없이 환각 감소를 달성합니다.
VAF는 생성된 출력의 일관성과 정확성을 유지합니다.
VAF는 플러그 앤 플레이 방식으로 다양한 MLLM에 적용 가능합니다.
한계점:
본 논문에서 제시된 실험 결과의 일반화 가능성에 대한 추가 연구가 필요합니다.
다양한 유형의 환각 및 다양한 MLLM 아키텍처에 대한 VAF의 성능을 더욱 포괄적으로 평가해야 합니다.
👍