Sign In

Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

Created by
  • Haebom
Category
Empty

저자

Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi

개요

본 논문은 비전-언어 모델(VLMs)이 시각 중심 작업에서 모달 간 불일치를 처리하는 방식에 대한 연구를 제시합니다. 다양한 텍스트 입력과 시각 데이터가 주어진 시각 중심 작업에서 10개의 VLMs를 평가하여, VLMs가 불일치가 발생할 때 시각 데이터보다 텍스트 데이터를 과도하게 신뢰하는 "텍스트에 대한 맹목적인 믿음" 현상을 발견했습니다. 이는 손상된 텍스트 하에서 성능 저하 및 안전 문제로 이어집니다. 프롬프트, 언어 모델 크기, 텍스트 관련성, 토큰 순서, 시각적 및 텍스트적 확실성 간의 상호 작용 등 여러 요인이 이러한 텍스트 편향에 영향을 미친다는 것을 분석했습니다. 큰 언어 모델은 편향을 다소 완화하지만, 토큰 순서와 같은 요인은 위치 편향으로 인해 오히려 악화시킬 수 있습니다. 텍스트 증강을 사용한 지도 학습 미세 조정을 통해 텍스트 편향을 줄이는 효과를 보였으며, 훈련 중 순수 텍스트와 다중 모달 데이터의 불균형이 이 현상의 원인일 수 있다는 이론적 분석도 제공합니다. 결론적으로, VLMs의 강건성과 신뢰성을 높이려면 균형 잡힌 훈련과 모달 상호 작용에 대한 신중한 고려가 필요함을 강조합니다.

시사점, 한계점

시사점:
VLMs의 "텍스트에 대한 맹목적인 믿음" 현상을 밝히고, 그 원인과 영향을 분석했습니다.
텍스트 증강을 통한 지도 학습 미세 조정이 텍스트 편향을 줄이는 효과적인 방법임을 제시했습니다.
VLMs 훈련 데이터의 균형이 중요함을 강조하여, 더욱 강건하고 신뢰할 수 있는 모델 개발에 대한 방향을 제시했습니다.
한계점:
본 연구는 특정 VLMs과 시각 중심 작업에 국한되어 일반화에 대한 추가 연구가 필요합니다.
텍스트 증강 외 다른 텍스트 편향 완화 기법에 대한 추가 연구가 필요합니다.
이론적 분석 결과의 실증적 검증이 부족합니다.
👍