Cet article examine les capacités d'inférence potentielles des modèles linguistiques à grande échelle (MLL), notamment leur capacité à combiner deux faits par le biais d'une réponse à des questions en deux étapes. Des recherches antérieures ont montré que les LLM peinent à répondre à des questions en deux étapes sans CoT (Coordination du Processus de Pensée). Cette étude affine les LLM à l'aide de faits synthétiques, évaluant ainsi leurs capacités d'inférence pure sans mémorisation ni raccourcis d'inférence. Des expériences avec des modèles tels que Llama 3 8B et GPT-4o montrent que, si ces modèles ne parviennent pas à combiner deux faits synthétiques, ils parviennent à combiner un fait synthétique avec un fait en langage naturel. Cela suggère que les LLM ont des capacités potentielles d'inférence en deux étapes, mais l'évolution de cette capacité avec la taille du modèle reste incertaine. Enfin, nous soulignons l'importance pour les chercheurs en inférence des LLM d'éviter à la fois les faux succès dus à la mémorisation ou aux raccourcis d'inférence et les faux échecs dus à des configurations expérimentales artificielles lorsqu'ils tirent des conclusions sur les capacités d'inférence potentielles des LLM.