Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hacking Hallucinations of MLLMs with Causal Sufficiency and Necessity

Created by
  • Haebom

저자

Peizheng Guo, Jingyao Wang, Wenwen Qiang, Huijie Guo, Changwen Zheng, Jiahuan Zhou, Gang Hua

개요

다중 모드 대규모 언어 모델(MLLM)은 비전-언어 과제에서 인상적인 성능을 보여주지만, 입력 이미지나 텍스트와 의미적으로 일관되지 않은 출력을 생성하는 환각 현상을 겪을 수 있습니다. 본 논문은 원인 분석을 통해 (i) 생략과 관련된 환각은 필수적인 인과적 요인을 충분히 포착하지 못해서 발생하고, (ii) 허구와 관련된 환각은 비인과적 단서에 의해 모델이 오도되어 발생한다는 것을 밝힙니다. 이러한 문제를 해결하기 위해, 본 논문은 인과적 완전성에 의해 안내되는 새로운 강화 학습 프레임워크를 제안합니다. 이 프레임워크는 토큰의 인과적 충족성과 인과적 필연성을 모두 고려하여 토큰 수준의 인과적 완전성 보상을 정의하고, 이를 GRPO 최적화 프레임워크 내에서 인과적으로 정보에 입각한 이점 함수를 구성하는 데 사용하여 정확한 생성에 인과적으로 충분하고 필요한 토큰에 집중하도록 모델을 장려합니다. 다양한 벤치마크 데이터셋과 과제에 대한 실험 결과는 제안된 방법이 MLLM의 환각을 효과적으로 완화함을 보여줍니다.

시사점, 한계점

시사점: 인과적 완전성에 기반한 강화 학습 프레임워크를 통해 MLLM의 환각 문제를 효과적으로 완화할 수 있음을 보여줌. 토큰 수준의 인과적 분석을 통해 환각의 원인을 명확히 규명하고 이를 해결하는 새로운 접근법 제시. 다양한 벤치마크 데이터셋에서 성능 향상을 실험적으로 검증.
한계점: 제안된 방법의 일반화 성능에 대한 추가적인 연구 필요. 특정 유형의 환각에 대해서는 효과가 제한적일 수 있음. 계산 비용이 높을 수 있음. 다양한 MLLM 아키텍처에 대한 적용 가능성 및 일반화 성능에 대한 추가적인 연구가 필요.
👍