본 논문은 언어 모델을 위한 새로운 토크나이저, Length-MAX 토크나이저를 소개한다. 이 토크나이저는 문자를 나타내는 데 필요한 평균 토큰 수를 최소화하여 훈련 및 추론 시 텍스트 표현에 필요한 토큰 수를 줄인다. Length-MAX 토크나이저는 길이 가중치 목표 최대화를 그래프 분할 문제로 변환하고, 탐욕 알고리즘을 사용하여 어휘를 구성한다. FineWeb 및 다양한 도메인에서 Byte Pair Encoding (BPE)보다 10K에서 50K 사이의 어휘 크기에서 14-18% 더 적은 토큰을 생성하며, 64K 크기에서는 13.0% 감소를 보인다. GPT-2 모델을 124M, 355M, 1.3B 파라미터로 처음부터 훈련한 결과, 고정된 검증 손실에 도달하는 데 필요한 단계 수가 각각 18.5%, 17.2%, 18.5% 감소했으며, 추론 지연 시간은 13.7%, 12.7%, 13.7% 감소했다. 또한 124M에서 16%의 처리량 증가를 보였으며, LAMBADA 혼란도를 11.7% 감소시키고 HellaSwag 정확도를 4.3% 향상시키는 등 다운스트림 작업에서도 일관된 개선을 보였다. Length-MAX 토크나이저는 99.62%의 어휘 범위와 0.12%의 낮은 어휘 외 비율을 기록했다. 이 결과는 평균 토큰 길이를 최적화하는 것이 다운스트림 성능을 저하시키지 않으면서(종종 개선하면서) 보다 효율적인 언어 모델링을 위한 효과적인 접근 방식임을 보여준다. 이 토크나이저는 프로덕션 시스템과 호환되며 추론 시 임베딩 및 KV 캐시 메모리를 18% 줄인다.