Este estudio desarrolló una plataforma de extracción de datos utilizando un modelo de lenguaje a gran escala (LLM) para mejorar la eficiencia del proceso de síntesis de conocimiento esencial (revisión de literatura) en la educación de las profesiones de la salud (HPE). El estudio comparó y analizó los resultados de la extracción de IA y humana de 187 artículos de revisión de alcance existentes y 17 preguntas de extracción. El acuerdo entre la IA y la extracción humana varió según el tipo de pregunta, con un alto acuerdo para preguntas específicas y explícitamente establecidas (p. ej., título, objetivos) y un bajo acuerdo para preguntas que requieren interpretación subjetiva o no se indican explícitamente en el texto (p. ej., resultados de Kirkpatrick, antecedentes de investigación). Los errores de IA fueron significativamente menores que los errores humanos, y la mayor parte del desacuerdo entre la IA y la extracción humana se debió a diferencias en la interpretación. Esto sugiere que la iteración del proceso de extracción de IA puede identificar complejidades o ambigüedades en la interpretación, lo que permite mejoras antes de la revisión humana.