Sign In

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

Created by
  • Haebom
Category
Empty

저자

Bo Bai

개요

본 논문은 대규모 언어 모델(LLM)의 정보 이론적 원리를 연구하기 위해 속도-왜곡 함수, 방향 정보 및 Granger 인과 관계 이론을 활용합니다. 토큰을 기본 단위로 하는 의미론적 정보 이론을 개발하여 LLM의 구조 불가지론적 정보 이론적 척도를 정의하고, 토큰 수준의 의미론적 임베딩과 정보 이론적으로 최적의 벡터화 방법을 탐구합니다. 또한, Transformer 아키텍처 및 ELBO, 일반화 오류 바운드, 메모리 용량, 의미론적 정보 척도 등의 성능을 이론적으로 도출할 수 있는 자동 회귀 LLM에 대한 일반적인 정의를 제안합니다. Mamba/Mamba2 및 LLaDA와 같은 다른 아키텍처도 이 프레임워크 내에서 논의됩니다.

시사점, 한계점

LLM을 이해하기 위한 의미론적 정보 이론적 관점의 이론적 프레임워크 제공
사전 훈련, 사후 훈련 및 추론 단계에서 정보 이론적 척도 정의
토큰 수준의 의미론적 임베딩 및 벡터화 방법 제안
Transformer 아키텍처 및 성능에 대한 이론적 분석 제공
Mamba/Mamba2 및 LLaDA와 같은 다른 아키텍처를 프레임워크 내에서 논의
(논문의 한계점에 대한 언급은 없음)
👍