본 논문은 심층 합성곱 신경망(dCNN)을 이용한 장면 분류에서의 사회경제적 편향을 조사한 연구입니다. 전 세계 및 미국 출처의 약 백만 장에 달하는 이미지(사용자가 제출한 가정 사진 및 Airbnb 목록 포함)를 사용하여 가계 소득, 인간 개발 지수(HDI), 인구 통계적 요소 등의 사회경제적 지표가 dCNN 성능에 미치는 영향을 정량적으로 분석했습니다. 그 결과, 사전 훈련된 dCNN은 사회경제적 지위(SES)가 낮은 가정의 이미지에서 특히 분류 정확도와 신뢰도가 낮고, "폐허", "빈민가"와 같이 공격적으로 해석될 수 있는 레이블을 할당하는 경향이 더 높은 것으로 나타났습니다. 이러한 경향은 두 개의 국제 이미지 데이터셋과 미국의 다양한 경제적, 인종적 환경에서 일관되게 나타났습니다. 이 연구는 컴퓨터 비전의 편향을 이해하고, 더 포괄적이고 대표적인 훈련 데이터셋의 필요성을 강조합니다.