Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning

Created by
  • Haebom

저자

Julia Witte Zimmerman, Denis Hudon, Kathryn Cramer, Alejandro J. Ruiz, Calla Beauregard, Ashley Fehr, Mikaela Irene Fudolig, Bradford Demarest, Yoshi Meke Bird, Milo Z. Trujillo, Christopher M. Danforth, Peter Sheridan Dodds

개요

본 논문은 생성형 AI의 Transformer 기반 대규모 언어 모델(LLM)을 포함한 많은 언어 모델의 현재 아키텍처에서 토큰화가 필수적인 구성 요소임에도 불구하고, 모델 인지에 미치는 영향은 종종 간과된다는 점을 논의한다. 연구진은 LLM이 분포 가설(DH)이 상당히 인간과 유사한 언어 성능에 충분하며, 토큰 간의 인간에게 의미 있는 언어 단위의 출현과 현재 구조적 제약이 기존의 언어적으로 무관심한 토큰화 기술, 특히 (1) 의미적 기본 요소로서의 역할과 (2) 인간 언어의 중요한 분포 패턴을 모델에 전달하는 매개체로서의 역할에 대한 변화를 유도한다고 주장한다. BPE 토크나이저의 토큰화, Hugging Face와 tiktoken에서 얻은 기존 모델 어휘, 그리고 RoBERTa(large) 모델의 계층을 통과하는 예시 토큰 벡터의 정보를 탐구한다. 최적이 아닌 의미적 구성 요소를 생성하고 모델의 필요한 분포 패턴에 대한 접근을 가리는 것 외에도, 토큰과 사전 훈련이 편향 및 기타 원치 않는 콘텐츠에 대한 백도어 역할을 할 수 있으며, 현재의 정렬 관행이 이를 개선하지 못할 수 있다는 점을 설명한다. 또한, 토큰화 알고리즘의 목적 함수가 주요 시스템 지능과 의미 있게 분리되어 있음에도 불구하고 LLM의 인지에 영향을 미친다는 증거를 제시한다.

시사점, 한계점

시사점:
LLM의 성능과 인지에 토큰화 알고리즘의 중요성을 강조한다.
토큰화 과정에서 발생할 수 있는 편향 및 원치 않는 콘텐츠 유입 문제를 지적하고, 이에 대한 해결책 모색의 필요성을 제기한다.
기존의 언어적으로 무관심한 토큰화 기술의 개선 필요성을 제시한다.
토큰이 의미적 기본 요소이자 분포 패턴 전달 매개체로서의 역할을 강조한다.
LLM의 인지에 토큰화 알고리즘의 목적 함수가 미치는 영향을 밝힌다.
한계점:
본 논문에서 제시된 토큰화 개선 방안에 대한 구체적인 제안이 부족하다.
다양한 LLM 아키텍처와 토큰화 방식에 대한 일반화 가능성이 제한적일 수 있다.
편향 및 원치 않는 콘텐츠 유입 문제에 대한 해결책 제시가 미흡하다.
👍