본 연구는 22개의 주요 대규모 언어 모델(LLM)을 사용하여 이력서 또는 자기소개서를 기반으로 전문직 지원자를 평가할 때 LLM의 행동을 조사했습니다. 각 모델에는 직무 설명과 성별이 다른 두 개의 지원자 이력서(남성 이름, 여성 이름)가 주어졌고, 더 적합한 지원자를 선택하도록 요청받았습니다. 모든 LLM은 70개의 서로 다른 직종에서 여성 이름을 가진 지원자를 일관되게 선호했습니다. 이력서에 성별 필드(남성/여성)를 추가하면 여성 지원자에 대한 선호도가 더욱 높아졌습니다. 성별 중립적인 식별자("지원자 A" 및 "지원자 B")를 사용했을 때는 여러 모델이 "지원자 A"를 선택하는 경향을 보였으며, 식별자의 성별 할당을 바꾸면 성별 균형이 이루어졌습니다. 이력서를 개별적으로 평가하도록 했을 때는 여성 이력서에 약간 더 높은 점수를 부여했지만 효과는 미미했습니다. 선호하는 대명사(he/him 또는 she/her)를 추가하면 성별에 관계없이 지원자가 선택될 가능성이 약간 증가했습니다. 대부분의 모델은 먼저 제시된 지원자를 선택하는 상당한 위치 편향을 보였습니다. 결론적으로, 고위험 자동 의사 결정 상황에서 LLM을 배포할 때 주의가 필요하며, LLM이 일관되게 원칙적인 추론을 적용하는지에 대한 의문을 제기합니다.