Cet article explique pourquoi les modèles de langage à grande échelle (LLM) basés sur Transformer rencontrent des difficultés avec les tâches nécessitant une inférence complexe sur une grande partie de l'entrée, en raison de leur capacité limitée de transfert d'attention. À cette fin, nous présentons le modèle BAPO (Bounded Attention Prefix Oracle), un nouveau cadre de calcul qui modélise les contraintes de bande passante de la tête d'attention, le mécanisme de communication interne des LLM. Nous montrons que d'importants problèmes d'inférence, tels que l'accessibilité des graphes, nécessitent une bande passante de communication élevée pour résoudre les BAPO, et nous définissons ces problèmes comme des problèmes BAPO-difficiles. Des expériences corroborent nos prédictions théoriques en montrant que GPT-4o, Claude et Gemini réussissent sur des tâches BAPO-faciles, mais échouent sur des tâches BAPO-difficiles relativement petites. Nous démontrons également que la décomposition de tâches à l'aide du CoT (CoT) peut transformer n'importe quel problème BAPO-difficile en un problème BAPO-facile, révélant un autre avantage du CoT. En conclusion, cet article fournit une explication raisonnée des principaux échecs des LLM et suggère des orientations pour les architectures et les méthodes d'inférence qui atténuent les contraintes de bande passante.