Cet article compare expérimentalement la capacité de trois modèles linguistiques à grande échelle (MLH) de pointe – GPT-4o, DeepSeek-V3 et GLM-4.5 – à jouer un rôle de tutorat au sein d'environnements d'apprentissage personnalisés. À partir d'un ensemble de données de réponses d'étudiants composé de dix questions aux formats variés et aux libellés de bonnes réponses, chaque LH a été chargé (i) d'identifier les composantes de connaissances, (ii) d'inférer les profils de compréhension des apprenants et (iii) de générer des cartes d'amélioration orientées objectifs. Pour garantir l'objectivité, Gemini a été utilisé comme évaluateur virtuel pour effectuer des comparaisons par paires sur différentes dimensions, notamment l'exactitude, la clarté, la faisabilité et la pertinence, et analysées à l'aide du modèle Bradley-Terry.