본 논문은 대규모 언어 모델(LLM)이 반복적이고 결정론적인 예측 작업에서 수행하는 성능을 조사하고, 출력 길이에 따른 시퀀스 정확도 변화를 연구한다. 문자 대체, 정수 덧셈, 양자 역학 연산자 곱셈 등과 같은 작업에서 모델의 성공률은 간단한 반복 알고리즘을 사용할 경우 시퀀스 길이에 따라 지수적으로 감소해야 한다. 그러나 실험 결과, LLM은 특정 길이 이후 급격한 정확도 저하(Accuracy Cliff)를 보이며, 이는 모델이 각 작업을 독립적으로 실행하지 못함을 나타낸다. 이러한 현상을 설명하기 위해, 본 논문은 프롬프트의 외부 조건과 생성된 토큰 간의 내부 간섭 간의 경쟁을 포착하는 통계 물리학 기반 모델을 제시한다. 이 모델은 관찰된 교차 현상을 정량적으로 재현하며, 어텐션 유도 간섭과 시퀀스 수준 실패 간의 해석 가능한 연결을 제공한다. 여러 모델과 작업에 대한 모델 피팅을 통해 각 모델 작업 쌍에 대한 고유 오류율과 오류 축적 인자를 특성화하는 효과적인 매개변수가 생성되어 LLM의 결정론적 정확도의 한계를 이해하는 원칙적인 프레임워크를 제공한다.