본 논문은 토큰화의 고정된 세분성 문제를 해결하기 위해, 자체 토큰을 학습하는 자동회귀 U-Net을 제안합니다. 이 네트워크는 원시 바이트를 읽어 단어, 단어 쌍, 최대 4개의 단어까지 풀링하여 시퀀스에 대한 다중 스케일 뷰를 제공합니다. 깊은 단계에서는 더 먼 미래를 예측해야 하므로, 깊은 단계는 광범위한 의미 패턴에 집중하고 초기 단계는 세부적인 내용을 처리합니다. 사전 훈련 연산을 신중하게 조정 및 제어하면, 얕은 계층 구조는 강력한 BPE 기준선에 필적하고, 깊은 계층 구조는 유망한 경향을 보입니다. 토큰화가 이제 모델 내부에 있으므로, 동일한 시스템이 문자 수준 작업을 처리하고 저자원 언어 간에 지식을 전달할 수 있습니다.