본 논문은 언어 모델이 생성하는 긴 텍스트의 perplexity에 대한 새로운 점근적 비균등 분할(un-equipartition) 특성을 증명하고, 오픈소스 모델을 이용한 실험적 증거를 제시합니다. 구체적으로, 언어 모델이 생성하는 모든 큰 텍스트의 로그 perplexity는 토큰 분포의 평균 엔트로피에 점근적으로 수렴함을 보입니다. 이는 언어 모델이 생성하는 모든 긴 합성 텍스트가 속해야 하는 "전형적인 집합(typical set)"을 정의합니다. 논문은 문법적으로 정확한 텍스트만 포함하도록 "전형적인 집합"의 개념을 세분화하고, 매우 일반적인 문법 정의 하에서 이러한 세분화된 전형적인 집합이 모든 가능한 문법적으로 정확한 텍스트의 매우 작은 부분집합임을 보입니다. 즉, 언어 모델은 가능한 동작 및 출력 범위에 강하게 제약을 받습니다. 본 연구는 언어 모델 출력의 통계에 대한 정상성과 같은 단순화된 가정을 하지 않으므로, 근사 없이 실제 모델에 직접 적용 가능합니다. 합성 텍스트 탐지 및 훈련 데이터셋의 멤버십 추론과 같은 문제에 대한 전형적인 집합 개념의 가능한 응용에 대해 논의합니다.