Cet article étudie la classification des réponses ouvertes dans les enquêtes à l'aide de modèles linguistiques à grande échelle (MLE). Contrairement aux études précédentes, principalement axées sur des données anglaises et des sujets simples, nous avons comparé et analysé divers LLE et méthodes d'incitation à la participation à des enquêtes de pointe à partir de données allemandes sur les raisons de participation. En comparant les performances avec celles d'un codage expert humain, nous avons confirmé la différence de performance des LLE et, en particulier, nous avons montré que seuls les LLE affinés obtenaient des performances de prédiction satisfaisantes. Nous avons constaté que l'efficacité des méthodes d'incitation variait selon le LLE et que, sans affinement, les LLE pouvaient classer chaque catégorie de raisons de participation à l'enquête de manière inégale, ce qui pouvait fausser la distribution des catégories. En conclusion, nous discutons des conditions et des contraintes d'une utilisation efficace et précise des LLE dans la recherche par sondage, et suggérons des implications pour le traitement et l'analyse des données par les praticiens.