언어 예측은 언어의 본질적인 정보 엔트로피에 의해 제약받으며, 이는 언어 모델의 정확도에 한계가 존재하고 언어 압축에 하한이 있음을 의미합니다. 현재 가장 효율적인 언어 압축 알고리즘은 인과적(다음 토큰 예측) 대형 언어 모델이지만, 이러한 모델을 사용하여 언어 엔트로피를 정확하게 추정하는 것은 현재 계산적으로 불가능합니다. 본 논문에서는 우수한 훈련 효율성을 보이며, 적당한 하드웨어에서 훈련되었음에도 불구하고 인과적 변환기보다 높은 압축률을 달성하는 인코더-증강 인과적 디코더 모델 아키텍처를 소개합니다. 토큰별 엔트로피 추정치를 얻는 방법을 보여주고, 훈련 데이터의 엔트로피에 접근하도록 훈련된 모델의 일반화 능력이 이 값을 넘어서는 손실을 최소화하도록 훈련된 모델의 일반화 능력을 반드시 초과한다는 것을 보여줍니다. 또한, 추정된 토큰별 엔트로피에 접근하되 초과하지 않도록 훈련된 인과적 모델이 엔트로피를 고려하지 않고 훈련된 모델보다 더 큰 일반화 능력을 보임을 경험적으로 보여줍니다.