본 논문은 대규모 언어 모델(LLM)의 입력 공간인 토큰 임베딩의 구조를 경험적 및 이론적으로 규명합니다. 각 토큰의 이웃이 잘 정의된 신호 및 노이즈 차원으로 분리되는 일반화되고 통계적으로 검증 가능한 모델을 제시합니다. 이 모델은 파이버 번들(fiber bundle)이라는 다양체의 일반화에 기반하며, "파이버 번들 귀무가설"이라는 가설 검정으로 표현됩니다. 귀무가설을 기각하지 못하는 것은 정보가 없음을 의미하지만, 특정 토큰에서 귀무가설을 기각하면 그 토큰이 통계적으로 유의미한 국소 구조를 가지고 있음을 나타냅니다. 여러 오픈소스 LLM에 대한 검정 결과, 귀무가설이 자주 기각되어 토큰 부분 공간이 파이버 번들이 아니며 따라서 다양체도 아님을 증명합니다. 결론적으로, 의미상 동등한 두 프롬프트가 주어졌을 때, 하나의 프롬프트에 검정 결과에서 문제가 된 토큰이 포함되어 있다면, 그 프롬프트는 토큰의 국소 신호 차원에 비례하여 더 큰 출력 변동성을 보일 가능성이 높습니다.