L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling
Created by
Haebom
Category
Empty
저자
Zhuo Chen, Oriol Mayne i Comas, Zhuotao Jin, Di Luo, Marin Solja\v{c}ic
개요
본 논문은 자연어에서 장거리 의존성을 지배하는 이분 상호 정보량의 스케일링 법칙을 엄밀하게 확립합니다. 기존의 2점 상호 정보량과는 구별되고 독립적으로 스케일링되는 이 법칙은 장문맥 언어 모델링을 이해하는 핵심입니다. 이 스케일링 법칙을 사용하여, 모델의 효과적인 장문맥 길이 모델링 능력을 과거 정보 저장을 위한 잠재 상태 크기의 스케일링과 관련짓는 장문맥 언어 모델링(L²M) 조건을 공식화합니다. 트랜스포머와 상태 공간 모델 모두에서 실험을 통해 결과를 검증하였습니다. 이 연구는 더 긴 문맥 길이를 향한 대규모 언어 모델 개발을 위한 이론적 기반을 마련합니다.