본 논문은 사전 훈련된 언어 모델(LLM)의 고정 토크나이저 체계로 인한 비효율성 및 성능 저하 문제를 해결하기 위해, 모델 독립적인 토크나이저 이식 방법인 TokenAdapt와 다중 단어 Supertokens를 위한 새로운 사전 토크나이제이션 학습 방법을 제안한다. TokenAdapt는 기존 토크나이저의 하위 단어 분해 기반 지역 추정과 원래 어휘에서 상위 k개의 의미적으로 유사한 토큰을 활용한 전역 추정을 결합한 하이브리드 휴리스틱을 통해 새로운 고유 토큰 임베딩을 초기화하여 의미를 보존하면서 재훈련 요구사항을 최소화한다. Supertokens는 압축률 향상과 단편화 감소를 목표로 한다. 실험 결과, TokenAdapt는 기존 방법들보다 우수한 성능을 보이며, 특히 perplexity 측면에서 상당한 개선을 이루었다.