Arxiv.

최신 논문들을 정리하고 소개하는 공간입니다. 이해를 돕기 위해 Keynote로 직접 제작한 그림이 포함되어 있습니다.
해당 자료를 활용하실 경우 [출처: bigeco] 혹은 해당 논문 리뷰 링크를 남겨주시면 감사하겠습니다.

Byte Latent Transformer: Patches Scale Better Than Tokens 논문 리뷰

Created by
  • Bigeco
학회/저널
ACL
논문 링크
https://arxiv.org/pdf/2412.09871
상위 카테고리
  1. Language Modeling
  2. LLM
태그
  1. Byte-level modeling
  2. Tokenizer-free
작성날짜
Sep 16, 2025
랩실 세미나에서 어떤 논문을 발표할까 고민하던 중에 2025 ACL에 다녀오신 선배님들이 소개해주신 키워드 하나가 눈에 들어왔습니다. 바로 "entropy 기반 동적 분할로 효율성 증가"였는데, 왜인지 흥미로워 보여서 이번 발표 논문으로 선정했었습니다.
막상 논문을 읽어보니 역시나 코드 없이는 동작 메커니즘을 직관적으로 이해하기 쉽지 않았지만... 다행히 Gabriel Mongaras가 올려둔 유튜브 리뷰 영상에서 그림으로 개념을 잘 풀어주셔서 큰 도움이 되었습니다. 그래도 진짜 제대로 이해하려면 GitHub에 공유된 코드까지 직접 확인하는 게 필수였습니다.
오늘은 이렇게 우여곡절 끝에 읽은 2025년 ACL에서 발표된 논문 《Byte Latent Transformer: Patches Scale Better Than Tokens》을 정리해보려 합니다.

Introduction

Ⅰ. Tokenization-based LLMs

Ⅱ. Byte-level LLMs

Ⅲ. Patch-based LLMs - MegaByte

Contribution

Method

Overall BLT Architecture

BLT Architecture

(1) Entropy Patching

(2) Encode Byte Stream

(3) Encoder Multi-Headed Cross-Attention

(4) Latent Global Transformer

(5) Decoder Multi-headed Cross-Attention

Experiments

Setup

Metrics

Experiment1. Robustness

Experiment2. Character-level Understanding

Experiment3. Reasoning & Code Generation

Experiment4. Patches Scale Better Than Tokens

Conclusion

Appendix

👍
1