Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning
Created by
Haebom
저자
Julia Witte Zimmerman, Denis Hudon, Kathryn Cramer, Alejandro J. Ruiz, Calla Beauregard, Ashley Fehr, Mikaela Irene Fudolig, Bradford Demarest, Yoshi Meke Bird, Milo Z. Trujillo, Christopher M. Danforth, Peter Sheridan Dodds
개요
본 논문은 생성형 AI의 Transformer 기반 대규모 언어 모델(LLM)을 포함한 많은 언어 모델의 현재 아키텍처에서 토큰화가 필수적인 구성 요소임에도 불구하고, 모델 인지에 미치는 영향은 종종 간과된다는 점을 논의한다. 연구진은 LLM이 분포 가설(DH)이 상당히 인간과 유사한 언어 성능에 충분하며, 토큰 간의 인간에게 의미 있는 언어 단위의 출현과 현재 구조적 제약이 기존의 언어적으로 무관심한 토큰화 기술, 특히 (1) 의미적 기본 요소로서의 역할과 (2) 인간 언어의 중요한 분포 패턴을 모델에 전달하는 매개체로서의 역할에 대한 변화를 유도한다고 주장한다. BPE 토크나이저의 토큰화, Hugging Face와 tiktoken에서 얻은 기존 모델 어휘, 그리고 RoBERTa(large) 모델의 계층을 통과하는 예시 토큰 벡터의 정보를 탐구한다. 최적이 아닌 의미적 구성 요소를 생성하고 모델의 필요한 분포 패턴에 대한 접근을 가리는 것 외에도, 토큰과 사전 훈련이 편향 및 기타 원치 않는 콘텐츠에 대한 백도어 역할을 할 수 있으며, 현재의 정렬 관행이 이를 개선하지 못할 수 있다는 점을 설명한다. 또한, 토큰화 알고리즘의 목적 함수가 주요 시스템 지능과 의미 있게 분리되어 있음에도 불구하고 LLM의 인지에 영향을 미친다는 증거를 제시한다.
시사점, 한계점
•
시사점:
◦
LLM의 성능과 인지에 토큰화 알고리즘의 중요성을 강조한다.
◦
토큰화 과정에서 발생할 수 있는 편향 및 원치 않는 콘텐츠 유입 문제를 지적하고, 이에 대한 해결책 모색의 필요성을 제기한다.