Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits

Created by
  • Haebom

저자

Xiang Zhang, Juntai Cao, Jiaqi Wei, Yiwei Xu, Chenyu You

개요

본 논문은 언어 모델에서 토큰화의 중요성을 강조하며, 특히 Chain-of-Thought (CoT) 프롬프팅에서 토큰화 방식이 추론 성능에 미치는 영향을 이론적 및 실험적으로 분석합니다. 서브워드 기반 토큰화 방식(예: BPE)이 원자적 추론 단위를 병합하거나 숨김으로써 상징적 계산을 방해한다는 점을 밝히고, 토큰의 세분성이 논리적 정렬을 방해하고 모델의 일반화를 저해하는 현상을 'Token Awareness'라는 개념으로 정의합니다. 산술 및 상징적 작업에 대한 체계적인 평가를 통해 토큰 구조가 추론 성능에 큰 영향을 미치며, CoT를 사용하더라도 원자적으로 정렬된 형식에 비해 성능이 저하됨을 보여줍니다. 결과적으로, LLM의 상징적 추론 능력은 순전히 아키텍처에 의존하는 것이 아니라 토큰 수준 표현에 크게 의존한다는 결론을 제시합니다.

시사점, 한계점

시사점:
서브워드 기반 토큰화 방식의 한계를 명확히 밝힘으로써, LLM의 상징적 추론 성능 향상을 위한 토큰화 전략 개선의 필요성을 제시합니다.
토큰화 방식의 개선을 통해 소규모 모델의 성능을 대규모 모델 수준으로 향상시킬 수 있음을 보여줍니다.
'Token Awareness' 개념을 제시하여 LLM의 추론 메커니즘에 대한 이해를 심화시킵니다.
한계점:
특정 토큰화 방식(BPE)에 집중하여 일반적인 토큰화 방식에 대한 연구가 부족할 수 있습니다.
제시된 'Token Awareness' 개념의 일반성 및 적용 범위에 대한 추가적인 연구가 필요합니다.
실험에 사용된 작업의 종류 및 범위가 제한적일 수 있습니다.
👍