Cet article étudie la capacité de raisonnement logique des modèles de langage à grande échelle (MLL) et leur évolutivité dans le raisonnement non monotone complexe. Nous introduisons un cadre d'évaluation complet appelé ZebraLogic pour évaluer les performances de l'inférence LLM sur des puzzles de treillis logiques dérivés de problèmes de satisfaction de contraintes (PSC). ZebraLogic génère des puzzles de complexité contrôlable et quantifiable, permettant une étude systématique des limites d'évolutivité de modèles tels que Llama, les modèles o1 et DeepSeek-R1. Il fournit un environnement structuré pour évaluer l'inférence à des niveaux de difficulté croissants, incluant divers espaces de recherche et contraintes logiques. Les résultats expérimentaux montrent que la précision diminue significativement avec la complexité du problème (le fléau de la complexité). Ces limites persistent même avec des modèles plus grands et des temps de calcul d'inférence accrus, suggérant des limites inhérentes aux capacités d'inférence LLM actuelles. Nous explorons également des stratégies pour améliorer le raisonnement logique, notamment l'échantillonnage au meilleur de N, les mécanismes de retour en arrière et les invites auto-vérifiables.