Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Length-MAX Tokenizer for Language Models

Created by
  • Haebom
Category
Empty

저자

Dong Dong, Weijie Su

개요

본 논문은 언어 모델을 위한 새로운 토크나이저, Length-MAX 토크나이저를 소개한다. 이 토크나이저는 문자를 나타내는 데 필요한 평균 토큰 수를 최소화하여 훈련 및 추론 시 텍스트 표현에 필요한 토큰 수를 줄인다. Length-MAX 토크나이저는 길이 가중치 목표 최대화를 그래프 분할 문제로 변환하고, 탐욕 알고리즘을 사용하여 어휘를 구성한다. FineWeb 및 다양한 도메인에서 Byte Pair Encoding (BPE)보다 10K에서 50K 사이의 어휘 크기에서 14-18% 더 적은 토큰을 생성하며, 64K 크기에서는 13.0% 감소를 보인다. GPT-2 모델을 124M, 355M, 1.3B 파라미터로 처음부터 훈련한 결과, 고정된 검증 손실에 도달하는 데 필요한 단계 수가 각각 18.5%, 17.2%, 18.5% 감소했으며, 추론 지연 시간은 13.7%, 12.7%, 13.7% 감소했다. 또한 124M에서 16%의 처리량 증가를 보였으며, LAMBADA 혼란도를 11.7% 감소시키고 HellaSwag 정확도를 4.3% 향상시키는 등 다운스트림 작업에서도 일관된 개선을 보였다. Length-MAX 토크나이저는 99.62%의 어휘 범위와 0.12%의 낮은 어휘 외 비율을 기록했다. 이 결과는 평균 토큰 길이를 최적화하는 것이 다운스트림 성능을 저하시키지 않으면서(종종 개선하면서) 보다 효율적인 언어 모델링을 위한 효과적인 접근 방식임을 보여준다. 이 토크나이저는 프로덕션 시스템과 호환되며 추론 시 임베딩 및 KV 캐시 메모리를 18% 줄인다.

시사점, 한계점

시사점:
토큰 수를 줄여 훈련 및 추론 효율성을 향상시킴.
BPE보다 더 적은 토큰을 사용하여 텍스트를 표현.
GPT-2 모델 훈련에서 더 적은 훈련 단계 및 추론 지연 시간 감소.
다운스트림 작업(LAMBADA, HellaSwag)에서 성능 향상.
메모리 사용량 감소 (임베딩 및 KV 캐시).
실제 프로덕션 환경에서 사용 가능.
한계점:
논문에 명시된 한계점은 없음.
👍