Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A partition cover approach to tokenization

Created by
  • Haebom

저자

Jia Peng Lim, Shawn Tan, Davin Choo, Hady W. Lauw

개요

본 논문은 토크나이저를 최적화 문제로 공식화하여, 정점 덮개 문제로부터의 간단한 환원을 통해 NP-hard임을 보여줍니다. 그리고 다항 시간 그리디 알고리즘인 GreedTok을 제안합니다. 이 공식은 잘 연구된 가중 최대 범위 문제로 자연스럽게 완화되며, 간단한 (1 - 1/e)-근사 알고리즘인 GreedWMC를 가지고 있습니다. 실제 말뭉치에 대한 실험적 평가를 통해 GreedTok이 BPE와 Unigram보다 압축 성능이 우수하며 GreedWMC와 비슷한 범위 점수를 달성함을 보여줍니다. 마지막으로, 10억 개 매개변수를 가진 두 개의 트랜스포머 기반 언어 모델에 대한 광범위한 사전 훈련을 통해 토크나이저로 BPE와 GreedTok을 비교한 결과, 전체 데이터셋 비율이나 전체 훈련 토큰 수를 제어하더라도 GreedTok이 바이트당 비트 수가 더 낮음을 보여줍니다.

시사점, 한계점

시사점:
토크나이제이션 문제를 최적화 문제로 공식화하여 새로운 관점을 제시합니다.
NP-hard 문제임을 증명하고, 효율적인 근사 알고리즘 GreedTok을 제안합니다.
BPE 및 Unigram보다 우수한 압축 성능과 GreedWMC에 필적하는 범위 점수를 달성합니다.
대규모 언어 모델 사전 훈련에서 GreedTok의 우수성을 실험적으로 검증합니다.
한계점:
GreedTok의 성능이 GreedWMC와 완전히 동일하지 않을 수 있습니다. (근사 알고리즘이기 때문)
제안된 알고리즘의 실제 적용 가능성에 대한 추가적인 연구가 필요할 수 있습니다. (특정 응용 분야에 대한 최적화 등)
실험은 특정 크기의 언어 모델과 말뭉치에 국한되어 일반화 가능성에 대한 추가 연구가 필요할 수 있습니다.
👍