Sign In

See It from My Perspective: How Language Affects Cultural Bias in Image Understanding

Created by
  • Haebom
Category
Empty

저자

Amith Ananthram, Elias Stengel-Eskin, Mohit Bansal, Kathleen McKeown

개요

본 논문은 시각-언어 모델(VLMs)의 서구 중심적 편향을 다룬다. 서구 문화와 동아시아 문화 간 시각적 집중 방식의 차이를 바탕으로, 다양한 문화적 이미지와 주석을 사용하여 VLMs의 성능을 평가한다. 실험 결과, VLMs는 서구 문화 관련 이미지/주석에서 더 나은 성능을 보이며, 이러한 편향의 원인 중 하나로 언어 모델 구성 시 언어 다양성 부족을 지적한다. 특정 문화권 언어를 사용한 추론은 편향을 줄이는 데 기여하지만, 해당 언어가 텍스트 전처리 단계에서 충분히 고려되었을 때 더 효과적임을 보여준다. 결론적으로, 공정한 VLMs 구축을 위해서는 모든 언어의 풍부한 표현이 중요하다고 강조한다.

시사점, 한계점

시사점:
VLMs의 서구 중심적 편향을 규명하고, 그 원인을 언어 모델 구성의 다양성 부족으로 분석하였다.
언어의 역할을 명확히 함으로써, 공정한 VLMs 개발을 위한 방향을 제시한다. 특히, 다양한 언어의 풍부한 표현이 중요함을 강조한다.
특정 문화권 언어를 사용한 추론은 편향 감소에 기여하지만, 전처리 단계에서의 언어 다양성이 더 중요함을 밝혔다.
한계점:
본 연구에서 제시된 편향의 원인이 언어 모델 구성의 다양성 부족 외 다른 요인들(예: 데이터 편향)에 의해 영향을 받을 수 있다는 점을 고려해야 한다.
더욱 광범위한 문화권과 다양한 유형의 이미지/주석을 포함한 추가 연구가 필요하다.
제시된 해결책의 실효성을 더욱 폭넓게 검증할 필요가 있다.
👍