Byte Latent Transformer: Patches Scale Better Than Tokens 논문 리뷰
Created by
Bigeco
학회/저널
ACL
논문 링크
https://arxiv.org/pdf/2412.09871
상위 카테고리
Language Modeling
LLM
태그
Byte-level modeling
Tokenizer-free
작성날짜
Sep 16, 2025
랩실 세미나에서 어떤 논문을 발표할까 고민하던 중에 2025 ACL에 다녀오신 선배님들이 소개해주신 키워드 하나가 눈에 들어왔습니다. 바로 "entropy 기반 동적 분할로 효율성 증가"였는데, 왜인지 흥미로워 보여서 이번 발표 논문으로 선정했었습니다.
막상 논문을 읽어보니 역시나 코드 없이는 동작 메커니즘을 직관적으로 이해하기 쉽지 않았지만... 다행히 Gabriel Mongaras가 올려둔 유튜브 리뷰 영상에서 그림으로 개념을 잘 풀어주셔서 큰 도움이 되었습니다. 그래도 진짜 제대로 이해하려면 GitHub에 공유된 코드까지 직접 확인하는 게 필수였습니다.
오늘은 이렇게 우여곡절 끝에 읽은 2025년 ACL에서 발표된 논문 《Byte Latent Transformer: Patches Scale Better Than Tokens》을 정리해보려 합니다.