본 논문은 현대 토큰화 파이프라인의 초기 단계인 사전 토큰화의 한계를 지적하고, 이를 극복하기 위한 새로운 BPE 알고리즘인 BoundlessBPE를 제안한다. 사전 토큰화는 텍스트를 공백과 구두점을 기준으로 분리하여 토큰을 생성하는데, 이는 흔한 단어에 토큰 분포가 편중되는 문제를 야기한다. BoundlessBPE는 사전 토큰 경계를 완화하여, 의미적으로 연결되지 않은 사전 토큰들을 병합하여 "슈퍼워드"를 생성한다. 이로 인해 표준 BPE보다 균등한 토큰 분포를 달성하고, 최대 15% 더 효과적인 텍스트 압축을 가능하게 한다.