Sign In

From Tokens to Words: On the Inner Lexicon of LLMs

Created by
  • Haebom
Category
Empty

저자

Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz

개요

본 논문은 대규모 언어 모델(LLM)이 하위 단어(sub-word)를 입력으로 처리하지만, 내부적으로는 단어를 어떻게 인코딩하는지에 대한 질문에 답하고자 한다. 연구 결과, LLM은 하위 단어 시퀀스를 마지막 토큰에서 일관된 전체 단어 표현으로 결합하는 고유한 역토큰화(detokenization) 과정을 수행한다는 증거를 제시한다. 이 과정은 주로 모델의 초기 및 중간 레이어에서 일어나며, 임의의 분할, 오타, 그리고 중요하게는 사전에 없는 단어에도 강건함을 보인다. 훈련 중에 그러한 표현을 입력으로 본 적이 없어도, 모델에 해당 단어의 마지막 토큰 내부 표현을 입력으로 제공하면 완전한 단어로 "이해"할 수 있다는 것을 보여준다. 이러한 발견은 LLM이 토크나이저의 범위를 넘어 잠재적인 어휘를 유지한다는 것을 시사하며, 사전 훈련된 모델의 어휘를 확장하는 실용적이고 파인튜닝이 필요 없는 방법을 제공한다. 새로운 어휘 단어를 추가함으로써 입력 길이와 추론 반복을 줄여 공간과 모델 지연 시간을 줄이고, 모델 정확도 손실은 거의 없거나 전혀 없다.

시사점, 한계점

시사점:
LLM이 하위 단어를 넘어 전체 단어 수준의 의미를 내부적으로 표현한다는 것을 밝힘.
LLM의 역토큰화 과정을 활용하여 파인튜닝 없이 어휘를 확장하는 새로운 방법 제시.
어휘 확장을 통해 입력 길이와 추론 시간을 단축시켜 모델 효율성을 향상시킬 수 있음.
한계점:
본 연구는 특정 LLM 아키텍처와 토크나이저에 국한될 수 있음. 다양한 모델과 토크나이저에 대한 추가 연구 필요.
역토큰화 과정의 정확한 메커니즘에 대한 추가적인 분석 필요.
어휘 확장의 효과가 모든 유형의 단어와 작업에 대해 동일하게 적용될 수 있는지에 대한 추가 연구 필요.
👍