ReAttention: Training-Free Infinite Context with Finite Attention Scope
Created by
Haebom
Category
Empty
저자
Xiaoran Liu, Ruixiao Li, Qipeng Guo, Zhigeng Liu, Yuerong Song, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu
개요
본 논문은 대규모 언어 모델(LLM)의 긴 문맥 처리 능력 향상을 위한 새로운 방법인 ReAttention을 제안합니다. 기존 LLM의 자기 주의 메커니즘은 제한된 위치 정보와 주의 범위로 인해 매우 긴 문맥을 효과적이고 효율적으로 처리하는 데 어려움을 겪습니다. ReAttention은 자기 주의 메커니즘 기반의 LLM이 제한된 주의 범위 내에서도 충분한 메모리만 있다면 무한한 문맥을 처리할 수 있도록 하는 훈련이 필요 없는 방법입니다. 위치와 무관한 상위 k개의 주의(top-$k$ attention)를 일반적인 위치를 고려하는 자기 주의 메커니즘 이전에 수행하여 문맥 길이 확장 문제를 해결합니다. LongBench, L-Eval, InfiniteBench 등의 벤치마크에서 기존 방법과 유사한 성능을 보였으며, LLaMA3.1-8B, Mistral-v0.3-7B 등 주요 LLM에 적용하여 최소 1M 이상의 문맥 길이를 지원하고, LLaMA3.2-3B-chat의 경우 문맥 길이를 128배(4M)까지 확장하는 결과를 보였습니다. Triton을 이용하여 ReAttention의 효율성을 높여 추가적인 오버헤드 없이 효율적인 문맥 길이 확장을 달성했습니다. 소스 코드는 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
LLM의 문맥 길이 제한 문제를 훈련 없이 해결하는 효과적인 방법 제시
◦
기존 LLM의 문맥 길이를 획기적으로 늘림 (최소 1M, 일부는 4M까지)
◦
Triton을 이용한 효율적인 구현으로 추가적인 오버헤드 없이 성능 향상
◦
공개된 소스 코드를 통해 재현성 및 확장성 확보
•
한계점:
◦
충분한 메모리 자원이 필요하다는 전제 조건 존재
◦
ReAttention이 모든 LLM과 모든 작업에 대해 동일한 성능 향상을 보장하는 것은 아님 (벤치마크 결과는 유사한 수준임을 나타냄)
◦
Triton 사용에 대한 의존성 존재 (Triton을 사용할 수 없는 환경에서는 성능이 저하될 가능성 있음)