Seeing vs. Believing: Evaluating the Language Bias of Open-Source MLLMs in Counter-Intuitive Scenes

Author

Haebom

저자

Chen Ling, Tongwei Zhang, Hanqian Li, Nai Ding

💡 개요

본 논문은 상식에 반하는 시각적 장면을 처리하는 데 있어 오픈소스 멀티모달 대형 언어 모델(MLLM)의 언어 편향을 평가합니다. 이를 위해 실제와 다른 시각적 상황을 담은 400개의 합성 장면으로 구성된 CAIT 벤치마크를 새롭게 제안하고, 이를 통해 인간과 최신 독점 모델, 그리고 14개의 오픈소스 MLLM을 평가했습니다. 결과적으로 오픈소스 모델들은 시각적 정보를 신뢰하기보다 통계적으로 일반적인 텍스트 설명을 우선시하는 강력한 언어 사전 편향으로 인해 현저히 낮은 성능을 보였습니다.

🔑 시사점 및 한계

•

오픈소스 MLLM은 상식에 반하는 시각적 장면에서 강력한 언어 사전 편향으로 인해 시각 정보를 신뢰하지 못하는 경향이 있습니다.

•

Chain-of-Thought 추론이 성능을 향상시키지만, 응답 속도를 늦추고 모델이 현실 물리 법칙을 위반한다는 이유로 시각적 내용을 거부하는 새로운 오류 모드를 발생시킵니다.

•

목표 지향적 미세 조정과 구조화된 프롬프팅은 이러한 언어 편향을 완화하고 오픈소스 모델이 시각적 증거에 기반한 정확한 추론을 할 수 있도록 돕습니다.

PDF 보기

Made with Slashpage