본 논문은 Transformer 기반 대규모 언어 모델(LLM)이 입력의 상당 부분에 걸쳐 복잡한 추론을 요구하는 작업에서 어려움을 겪는 원인을 분석합니다. LLM 내부 정보 흐름의 용량 한계를 문제의 근본 원인으로 제시하며, 이를 형식화하기 위해 새로운 계산 프레임워크인 제한된 어텐션 프리픽스 오라클(BAPO) 모델을 도입합니다. BAPO 모델은 어텐션 헤드(LLM의 내부 통신 메커니즘)의 대역폭 제약을 모델링합니다. 논문은 그래프 도달 가능성과 같이 BAPO가 해결하기 위해 높은 통신 대역폭을 필요로 하는 여러 중요한 추론 문제를 정의하고 이를 BAPO-hard 문제로 분류합니다. 실험을 통해 GPT-4, Claude, Gemini가 BAPO-easy 문제는 성공적으로 해결하지만, 비교적 작은 BAPO-hard 문제에서도 실패하는 것을 보여줍니다. 또한, 사고 과정(CoT)을 사용하여 작업을 분해하면 모든 BAPO-hard 문제를 BAPO-easy 문제로 전환할 수 있음을 증명하며, CoT의 또 다른 장점을 밝힙니다. 결과적으로, 주요 LLM 실패에 대한 원칙적인 설명을 제공하고 대역폭 한계를 완화하는 아키텍처 및 추론 방법을 제시합니다.