Cet article présente une étude sur l'utilisation de tâches d'inférence en langage naturel et de tâches d'inférence générées artificiellement pour évaluer la capacité d'inférence de modèles linguistiques à grande échelle (MLH). Les tâches d'inférence en langage naturel étant difficiles à générer manuellement, nous créons un jeu de données artificiel facile à générer à grande échelle en utilisant la structure de base de la programmation (par exemple, programmes linéaires, codes avec chemins critiques, instructions approximatives et redondantes, etc.). Nous évaluons la capacité des MLH en utilisant des jeux de données artificiels supplémentaires présentant des problèmes d'alignement et des opérations répétées, et montrons que même les MLH les plus puissants s'appuient fortement sur la mémoire et la reconnaissance de formes et présentent des processus d'inférence faibles. Cette étude contribue à tester artificiellement la capacité d'inférence des MLH de manière évolutive, en complément des tâches annotées manuellement.