본 논문은 LLM의 긴 입력 텍스트 처리 시 발생하는 GPU 메모리 문제 해결을 위해 Low Rank Query and Key attention (LRQK)이라는 새로운 프레임워크를 제안합니다. LRQK는 쿼리 및 키 행렬을 랭크-r 요인으로 분해하여 메모리 사용량을 줄이고, 믹스 GPU-CPU 캐시를 활용하여 정확도를 유지하면서 CPU-GPU 데이터 이동을 최소화합니다. LLaMA-3-8B 및 Qwen2.5-7B 모델을 사용한 실험 결과, LRQK는 기존 희소 어텐션 방법보다 우수한 성능과 메모리 절약 효과를 보였습니다.