본 논문은 언어 모델의 성별 고정관념 편향 측정의 복잡성과 기존 벤치마크의 한계를 다룹니다. 기존 벤치마크들은 성별 고정관념의 다면적인 측면을 제대로 포착하지 못하고 부분적인 측면만 반영한다는 점을 지적하며, StereoSet과 CrowS-Pairs를 사례 연구로 활용하여 데이터 분포가 벤치마크 결과에 미치는 영향을 조사합니다. 사회심리학적 프레임워크를 적용하여 벤치마크 데이터의 균형을 맞춤으로써, 간단한 균형 조정 기법만으로도 서로 다른 측정 방식 간의 상관관계를 크게 향상시킬 수 있음을 보여줍니다. 결론적으로 언어 모델 내 성별 고정관념의 복잡성을 강조하고, 편향을 감지하고 줄이는 더욱 정교한 기술 개발을 위한 새로운 방향을 제시합니다.