본 논문은 대규모 언어 모델(LLM)의 성별 편향성을 온라인 쇼핑 이력을 기반으로 새롭게 조사한 연구입니다. 미국 사용자의 온라인 구매 데이터를 사용하여 6개의 LLM이 성별을 분류하는 능력을 평가하고, 그 추론 과정과 제품-성별 공동 출현을 분석했습니다. 그 결과, 모델들이 중간 정도의 정확도로 성별을 추론할 수 있지만, 그 결정은 종종 제품 범주와 성별 간의 고정관념적인 연관성에 기반한다는 것을 발견했습니다. 또한, 편향성을 피하라는 명시적인 지시사항은 모델 예측의 확실성을 낮추지만, 고정관념적인 패턴을 완전히 제거하지는 못했습니다.