Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Hallucination in Multimodal Reasoning via Functional Attention Control

Created by
  • Haebom

저자

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang

개요

다중 모달 대형 추론 모델(MLRM)의 비전-언어 추론 능력 발전에도 불구하고, 할루시네이션은 여전히 문제로 남아있습니다. 본 연구는 어텐션 헤드가 얕은 레이어에서는 지각에, 깊은 레이어에서는 기호 추론에 기여하는 분화된 역할을 수행한다는 점을 발견했습니다. 이러한 관찰을 바탕으로, 지각적 편향과 추론 오류로 인한 할루시네이션 문제를 해결하기 위해, 재학습 없이 지각 및 추론 지향 헤드를 식별하고 기여도를 조절하는 경량 플러그인 (Functional Head Identification and Class-conditioned Rescaling)을 제안합니다. 세 가지 MLRM, 여섯 가지 벤치마크, 네 가지 베이스라인에 대한 평가 결과, 본 플러그인이 평균 5%, 최대 15%의 성능 향상을 보였으며, 1% 미만의 추가 계산량과 9%의 지연 시간 감소를 달성했습니다. 제안하는 방법은 모델에 독립적이며, off-the-shelf MLRM의 신뢰성과 해석 가능성을 향상시켜 안전한 활용을 가능하게 합니다.

시사점, 한계점

시사점:
할루시네이션 문제 해결을 위한 경량 플러그인 제안.
MLRM 내 어텐션 헤드의 역할 분담(지각 vs. 추론)에 대한 통찰력 제공.
모델 재학습 없이 off-the-shelf MLRM의 성능 향상 가능성 제시.
다양한 MLRM 및 벤치마크에 대한 광범위한 평가 수행.
모델의 안전한 활용을 위한 신뢰성 및 해석 가능성 향상.
한계점:
플러그인의 일반화 가능성에 대한 추가 연구 필요.
특정 벤치마크에서 성능 개선 폭이 제한적일 수 있음.
장기간 사용 시 플러그인의 안정성 검증 필요.
(해당 논문에서 언급되지 않음) - 플러그인이 처리할 수 있는 할루시네이션 유형의 한계.
👍