Bài báo này giải thích lý do tại sao các mô hình ngôn ngữ quy mô lớn (LLM) dựa trên Transformer gặp khó khăn với các tác vụ đòi hỏi suy luận phức tạp trên một phần lớn dữ liệu đầu vào do khả năng truyền tải sự chú ý hạn chế của chúng. Để đạt được mục đích này, chúng tôi trình bày mô hình Oracle Tiền tố Chú ý Giới hạn (BAPO), một khuôn khổ tính toán mới mô hình hóa các ràng buộc băng thông của đầu chú ý, cơ chế giao tiếp nội bộ của LLM. Chúng tôi chỉ ra rằng các vấn đề suy luận quan trọng, chẳng hạn như khả năng tiếp cận đồ thị, đòi hỏi băng thông giao tiếp cao để giải quyết BAPO, và chúng tôi định nghĩa những vấn đề này là các vấn đề BAPO-khó. Các thí nghiệm hỗ trợ các dự đoán lý thuyết của chúng tôi bằng cách chỉ ra rằng GPT-4o, Claude và Gemini thành công trong các tác vụ BAPO-dễ nhưng thất bại trong các tác vụ BAPO-khó tương đối nhỏ. Chúng tôi cũng chứng minh rằng việc phân tích các tác vụ sử dụng CoT (CoT) có thể biến bất kỳ vấn đề BAPO-khó nào thành vấn đề BAPO-dễ, cho thấy một ưu điểm khác của CoT. Tóm lại, bài báo này cung cấp một lời giải thích có nguyên tắc cho các lỗi chính của LLM và đề xuất các hướng cho kiến trúc và phương pháp suy luận giúp giảm thiểu các ràng buộc băng thông.