Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient Low Rank Attention for Long-Context Inference in Large Language Models

Created by
  • Haebom

저자

Tenghui Li, Guoxu Zhou, Xuyang Zhao, Yuning Qiu, Qibin Zhao

개요

본 논문은 LLM의 긴 입력 텍스트 처리 시 발생하는 GPU 메모리 문제 해결을 위해 Low Rank Query and Key attention (LRQK)이라는 새로운 프레임워크를 제안합니다. LRQK는 쿼리 및 키 행렬을 랭크-r 요인으로 분해하여 메모리 사용량을 줄이고, 믹스 GPU-CPU 캐시를 활용하여 정확도를 유지하면서 CPU-GPU 데이터 이동을 최소화합니다. LLaMA-3-8B 및 Qwen2.5-7B 모델을 사용한 실험 결과, LRQK는 기존 희소 어텐션 방법보다 우수한 성능과 메모리 절약 효과를 보였습니다.

시사점, 한계점

시사점:
긴 컨텍스트 LLM 추론 시 GPU 메모리 문제를 해결하는 새로운 프레임워크 제시.
정확도를 유지하면서 메모리 사용량 절감.
GPU-CPU 캐시 활용을 통한 데이터 이동 최소화.
RULER 및 LongBench 벤치마크에서 기존 방법 대비 우수한 성능 입증.
한계점:
LRQK의 효율성은 특정 모델 및 벤치마크에 국한될 수 있음.
최적의 랭크 r 및 k 값 설정을 위한 추가 연구 필요.
GPU-CPU 간 데이터 전송의 오버헤드는 추가적인 분석이 필요할 수 있음.
👍