본 연구는 GPT-4 Turbo, GPT-3.5 Turbo 등 주요 사전 훈련된 거대 언어 모델(LLM)들의 성능을 HR 면접 시나리오에서 전문가 수준의 인간 평가자와 비교 분석한 논문입니다. 실제 HR 면접 기록 3,890건으로 구성된 HURIT 데이터셋을 사용하여 LLM들이 면접 점수 부여, 오류 식별, 피드백 및 개선 제안 능력을 평가했습니다. 그 결과, 특히 GPT-4 Turbo와 GPT-3.5 Turbo는 인간 평가자와 비슷한 수준의 점수를 부여하는 능력을 보였지만, 오류 식별 및 구체적인 개선 방안 제시에는 어려움을 보였습니다. 따라서 연구는 HR 면접 평가에 LLM을 자동으로 적용하는 것보다는, 인간의 개입을 통한 오류 검토 및 피드백 질 향상을 위한 접근 방식이 더 적합하다고 제안합니다.