MrT5 (MergeT5)는 기존 바이트 레벨 모델인 ByT5의 효율성을 개선한 모델입니다. ByT5는 토큰화 없이 raw 바이트 스트림을 처리하여 시퀀스 길이가 길어지는 문제점을 가지고 있는데, MrT5는 인코더에 토큰 삭제 메커니즘을 추가하여 이 문제를 해결합니다. 학습된 삭제 게이트는 특정 계층 이후 불필요한 토큰을 제거하고, 남은 토큰에 중요 정보를 통합하여 시퀀스 길이를 줄입니다. 다국어 학습을 통해 각 언어의 정자법적 특징에 맞춰 압축률을 조절하고, XNLI, TyDi QA 등 다양한 downstream task에서 ByT5와 비슷한 성능을 유지하면서 최대 75%까지 시퀀스 길이를 단축합니다.