Este artículo presenta EducationQ, un novedoso marco de diálogo multiagente para evaluar la competencia educativa de modelos lingüísticos a gran escala (LLM). EducationQ evalúa eficientemente la competencia educativa de los LLM mediante un escenario de enseñanza virtual dinámico. Los resultados de la evaluación de 14 LLM en 13 disciplinas académicas y 10 niveles de dificultad con 1498 preguntas muestran que no existe una correlación lineal entre el tamaño del modelo o la capacidad de razonamiento general y la efectividad educativa. Algunos modelos de código abierto a pequeña escala superan a los modelos comerciales a gran escala en contextos educativos, lo que sugiere que las evaluaciones tradicionales deberían centrarse en métodos de enseñanza interactivos en lugar de en la memorización de conocimientos. Una evaluación de metodología mixta que combina métricas cuantitativas, análisis cualitativos y estudios de casos de expertos identifica fortalezas educativas distintivas (p. ej., estrategias sofisticadas de cuestionamiento, mecanismos de retroalimentación adaptativa) utilizadas por los modelos de primer nivel. Las evaluaciones de expertos muestran un 78% de coincidencia con el análisis cualitativo automatizado, lo que demuestra la validez metodológica de este estudio. Esto sugiere que el uso de los LLM como herramientas educativas requiere mejoras específicas para efectos educativos específicos, más allá del simple escalamiento.