본 논문은 2024년 출시된 Gemini 1.5 Pro, Llama 3 70B, Claude 3 Opus, GPT-4o 등 4개의 주요 대규모 언어 모델(LLM)에서의 성별, 연령, 인종 편향을 평가한다. 직업 시나리오에서는 여성 캐릭터가 남성 캐릭터보다 더 자주 묘사되는 경향(미국 노동통계청 데이터 대비 37% 편차)을, 범죄 시나리오에서는 성별(54%), 인종(28%), 연령(17%)에 걸쳐 미국 연방수사국 데이터와의 상당한 편차를 발견했다. 성별 및 인종 편향을 줄이기 위한 노력이 특정 하위 집단을 과대 표현하여 문제를 악화시킬 수 있음을 보여주는 결과를 제시하며, 기존 편향 완화 기술의 한계와 더 효과적인 접근 방식의 필요성을 강조한다.