Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping

Created by

Haebom

저자

Joan Nwatu, Longju Bai, Oana Ignat, Rada Mihalcea

개요

본 논문은 주류 시각-언어(Vision-Language, VL) 데이터셋의 문화적 편향성을 지적하고, 이를 해결하기 위해 기능 중심 프레임워크를 제안합니다. 이 프레임워크는 객체를 기능별로 분류하여 다양한 문화 및 경제적 맥락을 포괄하며, 이를 구현하기 위해 Dollar Street 데이터셋을 재구성한 "Culture Affordance Atlas"를 개발했습니다. CLIP 모델을 사용한 실험을 통해 기능 중심 라벨이 고소득 및 저소득 그룹 간의 성능 격차를 줄이고, 특히 저소득 맥락에서 모델의 효과를 향상시키는 것을 입증했습니다. 또한, 본 연구는 주요 VL 데이터셋에서 간과되는 문화적으로 중요한 객체들을 발굴했습니다.