Este estudio compara el rendimiento de los principales modelos de lenguaje a gran escala (LLM) preentrenados, como GPT-4 Turbo y GPT-3.5 Turbo, con evaluadores humanos expertos en escenarios de entrevistas de RR. HH. Utilizando el conjunto de datos HURIT, compuesto por 3890 registros reales de entrevistas de RR. HH., evaluamos la capacidad de los LLM para asignar puntuaciones, identificar errores, proporcionar retroalimentación y sugerir mejoras. Como resultado, en particular, GPT-4 Turbo y GPT-3.5 Turbo mostraron puntuaciones similares a las de los evaluadores humanos, pero tuvieron dificultades para identificar errores y sugerir medidas de mejora específicas. Por lo tanto, el estudio sugiere que un enfoque que mejore la calidad de la revisión de errores y la retroalimentación mediante la intervención humana es más apropiado que la aplicación automática de LLM a la evaluación de entrevistas de RR. HH.