Sign In

From Tokens to Words: On the Inner Lexicon of LLMs

Created by
  • Haebom
Category
Empty

저자

Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz

개요

본 논문은 대규모 언어 모델(LLM)이 하위 단어(sub-word)를 입력으로 처리하지만 내부적으로는 단어를 어떻게 표현하는지에 대한 연구입니다. 실험을 통해 LLM이 하위 단어들을 마지막 토큰에서 통합하여 전체 단어 표현을 생성하는 '내재적 디토크나이제이션(detokenization)' 과정을 거친다는 증거를 제시합니다. 이 과정은 주로 모델의 초기 및 중간 레이어에서 발생하며, 임의의 분리, 오타, 그리고 중요하게는 사전에 없는 단어(out-of-vocabulary words)에도 강건함을 보입니다. 사전에 없는 단어의 마지막 토큰 내부 표현을 입력으로 제공했을 때, 모델이 훈련 중에 해당 표현을 본 적이 없음에도 불구하고 전체 단어로 "이해"할 수 있음을 보여줍니다. 이는 LLM이 토크나이저의 범위를 넘어 잠재적인 어휘를 유지한다는 것을 시사하며, 미세 조정 없이 사전 훈련된 모델의 어휘를 확장하는 실용적인 방법을 제공합니다. 새로운 어휘 단어 추가를 통해 입력 길이와 추론 반복 횟수를 줄여 공간 및 모델 지연 시간을 단축하고 모델 정확도 손실은 거의 없거나 전혀 없습니다.

시사점, 한계점

시사점:
LLM이 하위 단어를 내부적으로 전체 단어로 통합하는 과정(내재적 디토크나이제이션)을 밝힘.
LLM의 잠재적인 어휘가 토크나이저의 범위를 넘어 확장될 수 있음을 제시.
미세 조정 없이 사전 훈련된 모델의 어휘를 확장하는 새로운 방법 제시.
입력 길이 및 추론 시간 단축을 통한 모델 효율성 향상 가능성 제시.
한계점:
본 연구에서 제시된 내재적 디토크나이제이션 과정의 정확한 메커니즘에 대한 추가적인 연구 필요.
다양한 LLM 아키텍처와 크기에 대한 일반화 가능성 검증 필요.
실제 어플리케이션에서의 성능 및 효율성에 대한 더욱 포괄적인 평가 필요.
👍