본 논문은 트랜스포머 기반 대규모 언어 모델(LLM)이 입력의 상당 부분에 걸쳐 복잡한 추론을 요구하는 작업에서 어려움을 겪는 이유를 분석합니다. 저자들은 이러한 실패가 LLM 내부의 정보 흐름에 대한 용량 한계 때문이라고 주장하며, 어텐션 헤드의 대역폭 제약을 모델링하는 새로운 계산 프레임워크인 제한된 어텐션 접두사 오라클(BAPO) 모델을 제시합니다. BAPO 모델을 통해 그래프 도달 가능성과 같은 여러 중요한 추론 문제가 BAPO가 해결하기 위해 높은 통신 대역폭을 필요로 함을 보여주고, 이러한 문제들을 BAPO-hard 문제로 정의합니다. 실험을 통해 GPT-4o, Claude, Gemini가 BAPO-easy 작업에서는 성공하지만 비교적 작은 BAPO-hard 작업에서도 실패하는 것을 확인하여 이론적 예측을 뒷받침합니다. 또한, BAPO는 사고 연쇄(CoT)의 또 다른 이점을 보여주는데, CoT를 사용하여 작업을 분해하면 모든 BAPO-hard 문제를 BAPO-easy 문제로 바꿀 수 있음을 증명합니다. 결론적으로, 본 연구는 주요 LLM 실패에 대한 원칙적인 설명을 제공하고 대역폭 한계를 완화하는 아키텍처 및 추론 방법에 대한 방향을 제시합니다.