Este artículo evalúa la viabilidad de un modelo lingüístico a gran escala (LLM) en un entorno educativo con múltiples idiomas (inglés, mandarín, hindi, árabe, alemán, persa, telugu, ucraniano y checo). El rendimiento del LLM se midió en cuatro tareas educativas: identificación de conceptos erróneos de los estudiantes, retroalimentación personalizada, tutoría interactiva y calificación de traducciones. Los resultados revelaron que el rendimiento del LLM se correlacionó principalmente con la cantidad de idioma incluido en los datos de entrenamiento. El rendimiento fue especialmente bajo en los idiomas con recursos limitados, con una degradación del rendimiento más frecuente que en inglés.