A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
Created by
Haebom
저자
Yan Li, Tianyi Zhang, Zechuan Li, Soyeon Caren Han
개요
Transformer 기반 대규모 언어 모델(LLM)은 위치 정보의 범위를 벗어나는(OOD) 문제로 인해 주의 메커니즘이 방해받아, 학습 컨텍스트 창을 초과하는 입력에 어려움을 겪습니다. 기존의 미세 조정 및 학습 없는 방법들은 비효율성, 중복 보간, 이상치 로짓, 또는 지역적 위치 정보 손실과 같은 문제점을 가지고 있습니다. 본 논문에서는 사전 학습된 위치 구간을 탐욕적으로 재사용하고 주의 로짓을 보간하여 이상치를 제거함으로써 길이 외삽을 개선하는 학습 없는 방법인 탐욕적 주의 로짓 보간(GALI)을 제안합니다. GALI는 입력 길이별 조정 없이 다양한 장문 컨텍스트 작업에서 안정적이고 우수한 성능을 달성합니다. 또한, LLM이 위치 구간을 불균등하게 해석하고, 보간 범위를 좁히는 것이 단문 컨텍스트 작업에서도 성능을 향상시킨다는 것을 분석을 통해 밝힙니다. GALI는 LLM에서 보다 강력하고 일반화 가능한 장문 처리를 위한 진전을 나타냅니다. GALI 구현과 논문 실험은 https://github.com/adlnlp/Gali 에서 공개되었습니다.