본 논문은 시각-언어 모델(VLMs)의 서구 중심적 편향을 다룬다. 서구 문화와 동아시아 문화 간 시각적 집중 방식의 차이를 바탕으로, 다양한 문화적 이미지와 주석을 사용하여 VLMs의 성능을 평가한다. 실험 결과, VLMs는 서구 문화 관련 이미지/주석에서 더 나은 성능을 보이며, 이러한 편향의 원인 중 하나로 언어 모델 구성 시 언어 다양성 부족을 지적한다. 특정 문화권 언어를 사용한 추론은 편향을 줄이는 데 기여하지만, 해당 언어가 텍스트 전처리 단계에서 충분히 고려되었을 때 더 효과적임을 보여준다. 결론적으로, 공정한 VLMs 구축을 위해서는 모든 언어의 풍부한 표현이 중요하다고 강조한다.