Byte Latent Transformer: Patches Scale Better Than Tokens 논문 리뷰

Created by

Bigeco

학회/저널

ACL

논문 링크

https://arxiv.org/pdf/2412.09871

상위 카테고리

Language Modeling
LLM

태그

Byte-level modeling
Tokenizer-free

작성날짜

Sep 16, 2025

랩실 세미나에서 어떤 논문을 발표할까 고민하던 중에 2025 ACL에 다녀오신 선배님들이 소개해주신 키워드 하나가 눈에 들어왔습니다. 바로 "entropy 기반 동적 분할로 효율성 증가"였는데, 왜인지 흥미로워 보여서 이번 발표 논문으로 선정했었습니다.

막상 논문을 읽어보니 역시나 코드 없이는 동작 메커니즘을 직관적으로 이해하기 쉽지 않았지만... 다행히 Gabriel Mongaras가 올려둔 유튜브 리뷰 영상에서 그림으로 개념을 잘 풀어주셔서 큰 도움이 되었습니다. 그래도 진짜 제대로 이해하려면 GitHub에 공유된 코드까지 직접 확인하는 게 필수였습니다.

오늘은 이렇게 우여곡절 끝에 읽은 2025년 ACL에서 발표된 논문 《Byte Latent Transformer: Patches Scale Better Than Tokens》을 정리해보려 합니다.

Introduction

Ⅰ. Tokenization-based LLMs

Ⅱ. Byte-level LLMs

Ⅲ. Patch-based LLMs - MegaByte

Contribution

Method

Overall BLT Architecture

BLT Architecture

(1) Entropy Patching

(2) Encode Byte Stream

(3) Encoder Multi-Headed Cross-Attention

(4) Latent Global Transformer

(5) Decoder Multi-headed Cross-Attention

Experiments

Setup

Metrics

Experiment1. Robustness

Experiment2. Character-level Understanding

Experiment3. Reasoning & Code Generation

Experiment4. Patches Scale Better Than Tokens

Conclusion

Appendix

Made with Slashpage