본 논문은 일반화 성능 향상이 데이터 확장뿐 아니라 내부 표현의 압축을 통해서도 이루어짐을 이론적으로 증명합니다. 이를 위해 정보 병목 언어 모델링(IBLM) 목표를 제시하는데, 이는 언어 모델링을 제약된 최적화 문제로 재구성하여 최적의 예측 성능을 유지하면서 표현 엔트로피를 최소화하는 것을 목표로 합니다. 실험적으로, 거대 언어 모델 사전 학습 중 기억-압축 주기가 나타나는 것을 관찰하였으며, 이는 교차 엔트로피와 표현 엔트로피 측정값인 행렬 기반 엔트로피(MBE) 사이의 양/음의 기울기 정렬의 진동으로 나타납니다. 이 패턴은 IBLM에서 제시된 예측-압축 트레이드오프를 반영하며, 깨어있는 학습과 수면 통합 사이의 생물학적 교체와도 유사합니다. 이러한 관찰에 착안하여, 기억 단계와 압축 단계 간을 적응적으로 전환하는 학습 알고리즘인 게이트 위상 전이(GAPT)를 제안합니다. FineWeb 데이터셋에서 GPT-2 사전 학습에 GAPT를 적용한 결과, MBE를 50% 감소시키고 교차 엔트로피를 4.8% 향상시켰습니다. 또한, 산술 곱셈에 대한 사전 학습 작업에서 OOD 일반화 성능을 35% 향상시켰고, 파국적 망각을 시뮬레이션하는 설정에서 표현을 압축하고 분리하여 간섭을 줄여 분리 성능을 97% 향상시켰습니다. 이는 수면 통합의 기능적 역할과 유사합니다.