Kevin Galim, Ethan Ewer, Wonjun Kang, Minjae Lee, Hyung Il Koo, Kangwook Lee
개요
본 논문은 Transformer의 이차 계산 복잡도와 선형 메모리 복잡도로 인해 장문맥 Large Language Model (LLM)의 추론 최적화가 점점 중요해짐에 따라, 토큰 또는 KV 쌍의 중요도를 대략적으로 예측하는 기존의 근사 방법(키-값(KV) 캐시 삭제, 희소 어텐션, 프롬프트 압축 등)을 개선하기 위해 소규모 초안 모델을 활용하여 토큰과 KV 쌍의 중요도를 더 정확하게 예측하는 새로운 프레임워크를 제안한다. 구체적으로, 초안 모델의 출력을 활용하여 각 KV 쌍의 중요도를 정확하게 평가하여 KV 캐시 삭제를 더 효과적으로 수행하는 SpecKV와 초안 모델의 어텐션 활성화를 사용하여 중요하지 않은 프롬프트 토큰을 식별하고 삭제하는 SpecPC 두 가지 방법을 제시한다. 이론적 및 실험적 분석을 통해 방법의 타당성을 보이고, 초안 모델과 대상 모델의 어텐션 패턴 간의 강한 상관관계를 보여준다. 장문맥 벤치마크에 대한 광범위한 실험을 통해 기존 기준 모델보다 정확도가 꾸준히 높으면서 메모리 사용량, 대기 시간 및 처리량 개선을 유지함을 보여준다. 소스 코드는 https://github.com/furiosa-ai/draft-based-approx-llm 에서 확인 가능하다.