본 논문은 대규모 시각-언어 모델(LVLM)의 할루시네이션(hallucination) 완화에 초점을 맞춘 연구를 소개한다. 연구는 먼저 on-policy 데이터가 off-policy 데이터보다 성능이 우수함을 확인하고, on-policy 데이터의 효율적이고 신뢰할 수 있는 선호도 주석(preference annotation)의 필요성을 강조한다. 기존 주석 방법이 훈련 샘플에 추가적인 할루시네이션을 유발할 수 있다는 점을 지적하며, 이 문제를 해결하기 위해 이진 주석을 제공하는 할루시네이션 분류기 훈련을 제안한다. 또한, on-policy 데이터의 활용을 극대화하기 위해 동적 샘플 재가중 스킴을 채택한 강력한 반복적 직접 선호도 최적화(DPO) 알고리즘을 설계했다. 다양한 벤치마크에서 8개의 최첨단 기반 모델과 비교 실험을 수행했으며, LLaVA-1.5-7B 모델의 MMHalBench 할루시네이션율을 50.8% 감소시키고, Object HalBench의 평균 할루시네이션율을 79.5% 감소시켰다. 또한, 오픈 소스 모델의 잠재력을 최대한 활용하여 LLaVA-1.5-13B가 GPT-4V의 성능을 능가하도록 했다.