Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

Created by
  • Haebom

저자

Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath

개요

본 논문은 사전 훈련된 언어 모델(LLM)의 고정 토크나이저 체계로 인한 비효율성 및 성능 저하 문제를 해결하기 위해, 모델 독립적인 토크나이저 이식 방법인 TokenAdapt와 다중 단어 Supertokens를 위한 새로운 사전 토크나이제이션 학습 방법을 제안한다. TokenAdapt는 기존 토크나이저의 하위 단어 분해 기반 지역 추정과 원래 어휘에서 상위 k개의 의미적으로 유사한 토큰을 활용한 전역 추정을 결합한 하이브리드 휴리스틱을 통해 새로운 고유 토큰 임베딩을 초기화하여 의미를 보존하면서 재훈련 요구사항을 최소화한다. Supertokens는 압축률 향상과 단편화 감소를 목표로 한다. 실험 결과, TokenAdapt는 기존 방법들보다 우수한 성능을 보이며, 특히 perplexity 측면에서 상당한 개선을 이루었다.

시사점, 한계점

시사점:
모델 독립적인 토크나이저 이식 방법(TokenAdapt)을 통해 LLM의 토크나이저 제약을 효과적으로 해결할 수 있음을 보여줌.
Supertokens를 활용하여 토크나이저의 압축률을 향상시키고 단편화를 줄일 수 있음을 제시.
기존 방법들보다 낮은 perplexity를 달성하여 성능 향상을 입증.
재훈련 요구사항을 최소화하여 계산 비용을 절감.
한계점:
제안된 방법의 성능이 다양한 LLM과 언어에 대해 얼마나 일반화될 수 있는지 추가적인 연구가 필요.
Supertokens의 최적 크기 및 구성에 대한 추가적인 연구가 필요.
특정 언어나 도메인에 대한 성능 평가가 부족할 수 있음.
실험 환경과 데이터셋에 대한 자세한 설명이 부족할 수 있음.
👍