본 논문은 법률, 금융, 정부 문서에 특화된 토크나이저인 KL3M 토크나이저 패밀리를 제시합니다. 기존의 토크나이저 연구에도 불구하고, 전문 분야에 특화된 토크나이저는 여전히 미개척 분야입니다. 논문은 도메인 특화 BPE 토크나이저 (법률, 금융, 정부 문서용)와 문자 수준 BPE 토크나이저 (OCR 후처리와 같은 텍스트 수정 작업용) 두 가지 주요 기여를 제공합니다. 도메인 특화 BPE 토크나이저는 기존 모델보다 적은 토큰 수를 사용하면서도 도메인 특화 용어에 대한 효율성을 높였으며, 문자 수준 BPE 토크나이저는 텍스트 수정 작업에서 일관된 토큰 경계를 유지하여 모델 학습을 용이하게 합니다. 모든 토크나이저와 코드는 GitHub와 Hugging Face를 통해 공개됩니다.