Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

Created by
  • Haebom

저자

Dixuan Wang, Yanda Li, Junyuan Jiang, Zepeng Ding, Ziqin Luo, Guochao Jiang, Jiaqing Liang, Deqing Yang

개요

본 논문은 대규모 언어 모델(LLM)의 토큰화 과정에 내재된 오류로 인해 부정확한 응답이 생성되는 현상을 다룬다. 특히 중국어 환경에서 이러한 문제가 더욱 두드러짐을 지적하며, 다양한 오픈소스 LLM의 어휘를 활용하여 LLM의 토큰화 과정을 어렵게 만드는 적대적 데이터셋 ADT(Adversarial Dataset for Tokenizer)를 제시한다. ADT는 수동 생성 데이터셋 ADT-Human과 자동 생성 데이터셋 ADT-Auto로 구성되며, GPT-4o, Llama-3, Deepseek-R1 등 주요 LLM의 토큰화 성능을 저하시키는 효과를 실험적으로 보여준다. 자동 데이터 생성 방법의 효율성과 견고성을 입증하고, LLM의 토큰화 과정 및 알고리즘 최적화를 통한 성능 향상 연구에 기여할 것으로 기대한다.

시사점, 한계점

시사점:
LLM의 토큰화 과정의 취약성을 명확히 보여주는 적대적 데이터셋 ADT를 제시.
자동 데이터 생성 방법의 효율성과 범용성을 입증.
LLM의 성능 향상을 위한 토큰화 과정 개선 연구의 중요성을 강조.
한계점:
ADT가 특정 LLM의 어휘에 기반하여 생성되었으므로, 다른 LLM에 대한 일반화 가능성에 대한 추가 연구 필요.
ADT-Auto의 자동 생성 과정의 세부적인 설명 및 알고리즘의 투명성 강화 필요.
토큰화 문제 해결을 위한 구체적인 해결 방안 제시 부족.
👍