본 논문은 다중 모달 대규모 언어 모델(MLLM)에서, 특히 밀집 이미지 캡션 작업에서 발생하는 환각 문제를 해결하는 것을 목표로 한다. 기존의 캡션 품질 측정 지표가 개념 수준에서 세밀한 측정을 제공하지 못하는 점을 지적하며, 언어 그래프를 기반으로 밀집 캡션의 정확성과 완전성을 세분화된 수준에서 평가하도록 설계된 새로운 지표인 HalFscore를 제안한다. 또한, 환각의 근본 원인을 모델의 언어 사전에 대한 과도한 의존으로 파악하고, 이를 해결하기 위해 적대적 방해된 텍스트를 학습 과정에 통합하여 언어 사전에 대한 의존도를 낮추는 PerturboLLaVA를 제안한다. PerturboLLaVA는 추가적인 계산 비용 없이 모델의 시각 입력에 대한 집중도를 높여 환각을 줄이고 정확하며 이미지에 기반한 설명을 생성한다. 실험 결과, PerturboLLaVA는 생성된 캡션의 충실도를 크게 향상시키고, 다중 모달 환각 처리 및 일반적인 다중 모달 벤치마크 성능 향상에서 기존 방법들을 능가함을 보여준다.