From Language Models over Tokens to Language Models over Characters
Created by
Haebom
저자
Tim Vieira, Ben LeBrun, Mario Giulianelli, Juan Luis Gastaldi, Brian DuSell, John Terilla, Timothy J. O'Donnell, Ryan Cotterell
개요
본 논문은 토큰 기반 언어 모델을 문자 기반 언어 모델로 변환하는 알고리즘을 제시합니다. 토큰 기반 모델은 프롬프트의 공백 여부 등에 민감하게 반응하는 등의 문제점을 가지고 있는데, 이를 해결하기 위해 정확한 알고리즘과 근사 알고리즘을 제시하고, 실험을 통해 그 실행 속도와 근사 정확도를 벤치마킹합니다. 실험 결과, 제한된 계산 자원 하에서도 빠른 속도로 문자 수준 분포를 정확하게 근사할 수 있으며, 언어 모델의 압축률을 크게 향상시킬 수 있음을 보여줍니다.