본 논문은 대규모 언어 모델(LLM)이 하위 단어(sub-word)를 입력으로 처리하지만 내부적으로는 단어를 어떻게 표현하는지에 대한 연구입니다. 실험을 통해 LLM이 하위 단어들을 마지막 토큰에서 통합하여 전체 단어 표현을 생성하는 '내재적 디토크나이제이션(detokenization)' 과정을 거친다는 증거를 제시합니다. 이 과정은 주로 모델의 초기 및 중간 레이어에서 발생하며, 임의의 분리, 오타, 그리고 중요하게는 사전에 없는 단어(out-of-vocabulary words)에도 강건함을 보입니다. 사전에 없는 단어의 마지막 토큰 내부 표현을 입력으로 제공했을 때, 모델이 훈련 중에 해당 표현을 본 적이 없음에도 불구하고 전체 단어로 "이해"할 수 있음을 보여줍니다. 이는 LLM이 토크나이저의 범위를 넘어 잠재적인 어휘를 유지한다는 것을 시사하며, 미세 조정 없이 사전 훈련된 모델의 어휘를 확장하는 실용적인 방법을 제공합니다. 새로운 어휘 단어 추가를 통해 입력 길이와 추론 반복 횟수를 줄여 공간 및 모델 지연 시간을 단축하고 모델 정확도 손실은 거의 없거나 전혀 없습니다.