본 논문은 언어 모델에서 토큰화의 중요성을 강조하며, 특히 Chain-of-Thought (CoT) 프롬프팅에서 토큰화 방식이 추론 성능에 미치는 영향을 이론적 및 실험적으로 분석합니다. 서브워드 기반 토큰화 방식(예: BPE)이 원자적 추론 단위를 병합하거나 숨김으로써 상징적 계산을 방해한다는 점을 밝히고, 토큰의 세분성이 논리적 정렬을 방해하고 모델의 일반화를 저해하는 현상을 'Token Awareness'라는 개념으로 정의합니다. 산술 및 상징적 작업에 대한 체계적인 평가를 통해 토큰 구조가 추론 성능에 큰 영향을 미치며, CoT를 사용하더라도 원자적으로 정렬된 형식에 비해 성능이 저하됨을 보여줍니다. 결과적으로, LLM의 상징적 추론 능력은 순전히 아키텍처에 의존하는 것이 아니라 토큰 수준 표현에 크게 의존한다는 결론을 제시합니다.