본 논문은 AI 기반 채용 과정에서의 공정성 및 편향 문제를 다룬다. 대규모 언어 모델(LLM)을 이용한 이력서 평가에서의 인종 및 성별 편향을 측정하기 위한 벤치마크, FAIRE(Fairness Assessment In Resume Evaluation)를 제시한다. 다양한 산업 분야의 이력서를 대상으로 직접 점수 매기기와 순위 매기기 두 가지 방법을 사용하여, 이력서에 인종 또는 성별 정보를 약간 변경했을 때 모델 성능이 어떻게 변하는지 측정한다. 모든 모델에서 어느 정도의 편향이 나타나지만, 그 정도와 방향은 모델마다 크게 다르다는 것을 발견하였다. 본 벤치마크는 AI 기반 채용 도구의 공정성을 검토하고, AI 기반 채용에서의 편향 감소 전략의 필요성을 강조한다. 벤치마크 코드와 데이터셋은 공개적으로 제공된다.