Sign In

PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training

Created by
  • Haebom
Category
Empty

저자

Cong Chen, Mingyu Liu, Chenchen Jing, Yizhou Zhou, Fengyun Rao, Hao Chen, Bo Zhang, Chunhua Shen

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)에서, 특히 밀집 이미지 캡션 작업에서 발생하는 환각 문제를 해결하는 것을 목표로 한다. 기존의 캡션 품질 측정 지표가 개념 수준에서 세밀한 측정을 제공하지 못하는 점을 지적하며, 언어 그래프를 기반으로 밀집 캡션의 정확성과 완전성을 세분화된 수준에서 평가하도록 설계된 새로운 지표인 HalFscore를 제안한다. 또한, 환각의 근본 원인을 모델의 언어 사전에 대한 과도한 의존으로 파악하고, 이를 해결하기 위해 적대적 방해된 텍스트를 학습 과정에 통합하여 언어 사전에 대한 의존도를 낮추는 PerturboLLaVA를 제안한다. PerturboLLaVA는 추가적인 계산 비용 없이 모델의 시각 입력에 대한 집중도를 높여 환각을 줄이고 정확하며 이미지에 기반한 설명을 생성한다. 실험 결과, PerturboLLaVA는 생성된 캡션의 충실도를 크게 향상시키고, 다중 모달 환각 처리 및 일반적인 다중 모달 벤치마크 성능 향상에서 기존 방법들을 능가함을 보여준다.

시사점, 한계점

시사점:
밀집 이미지 캡션 작업에서 MLLM의 환각 문제 해결에 대한 새로운 접근 방식 제시
개념 수준에서 캡션 품질을 세밀하게 측정하는 새로운 지표 HalFscore 제안
추가적인 계산 비용 없이 환각을 줄이고 정확도를 높이는 PerturboLLaVA 방법 제안
다중 모달 환각 문제 해결 및 다중 모달 벤치마크 성능 향상
한계점:
HalFscore 및 PerturboLLaVA의 일반화 성능에 대한 추가적인 연구 필요
다양한 유형의 MLLM 및 다양한 다중 모달 작업에 대한 PerturboLLaVA의 적용 가능성 검증 필요
환각의 다른 원인들에 대한 고려 부족 가능성
HalFscore 및 PerturboLLaVA의 실제 응용 분야에 대한 추가적인 연구 필요
👍