Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimizing LVLMs with On-Policy Data for Effective Hallucination Mitigation

Created by
  • Haebom
Category
Empty

저자

Chengzhi Yu, Yifan Xu, Yifan Chen, Wenyi Zhang

개요

본 논문은 대규모 시각-언어 모델(LVLM)의 할루시네이션(hallucination) 완화에 초점을 맞춘 연구를 소개한다. 연구는 먼저 on-policy 데이터가 off-policy 데이터보다 성능이 우수함을 확인하고, on-policy 데이터의 효율적이고 신뢰할 수 있는 선호도 주석(preference annotation)의 필요성을 강조한다. 기존 주석 방법이 훈련 샘플에 추가적인 할루시네이션을 유발할 수 있다는 점을 지적하며, 이 문제를 해결하기 위해 이진 주석을 제공하는 할루시네이션 분류기 훈련을 제안한다. 또한, on-policy 데이터의 활용을 극대화하기 위해 동적 샘플 재가중 스킴을 채택한 강력한 반복적 직접 선호도 최적화(DPO) 알고리즘을 설계했다. 다양한 벤치마크에서 8개의 최첨단 기반 모델과 비교 실험을 수행했으며, LLaVA-1.5-7B 모델의 MMHalBench 할루시네이션율을 50.8% 감소시키고, Object HalBench의 평균 할루시네이션율을 79.5% 감소시켰다. 또한, 오픈 소스 모델의 잠재력을 최대한 활용하여 LLaVA-1.5-13B가 GPT-4V의 성능을 능가하도록 했다.

시사점, 한계점

시사점:
on-policy 데이터의 중요성 확인 및 효율적인 활용 방법 제시.
할루시네이션 분류기를 활용하여 깨끗한 훈련 샘플 확보.
동적 샘플 재가중 DPO 알고리즘을 통한 성능 향상.
오픈 소스 모델의 성능 잠재력 극대화.
다양한 벤치마크에서 기존 SOTA(State-of-the-Art) 모델 대비 높은 성능 달성.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (단, 연구의 구체적인 방법에 대한 더 자세한 설명이 필요할 수 있음.)
👍