본 논문은 다양한 문화적 맥락에서 점점 더 많이 사용되는 Vision-Language Models (VLMs)의 내부 편향성에 대한 이해 부족 문제를 다룹니다. 국가 간 인종, 성별, 신체적 특징과 관련된 문화적 차이와 편향성을 체계적으로 평가하기 위한 새로운 프레임워크를 제안합니다. 세 가지 검색 기반 작업, 즉 (1) 특정 인종 집단(동아시아인, 백인, 중동인, 라틴계, 남아시아인, 흑인)과 다른 국가 간의 연관성을 조사하는 인종-국가 검색, (2) 이미지에 특성 기반 프롬프트(예: 똑똑한, 정직한, 범죄자, 폭력적인)를 연결하여 잠재적인 고정관념적 연관성을 조사하는 개인적 특성-국가 검색, (3) 마른, 젊은, 비만한, 늙은 등의 시각적 속성에 초점을 맞춰 신체적 외모가 국가와 어떻게 문화적으로 연결되는지 탐구하는 신체적 특징-국가 검색을 도입합니다. 연구 결과 VLMs에서 지속적인 편향성이 드러나며, 시각적 표현이 어떻게 의도치 않게 사회적 고정관념을 강화할 수 있는지 보여줍니다.