Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RAP: Runtime-Adaptive Pruning for LLM Inference

Created by
  • Haebom

저자

Huanrong Liu, Chunlin Tian, Xuyang Wei, Jiaheng Dai, Qin Liu, Tianqi Wei, Qingbiao Li, Li Li

개요

본 논문은 대규모 언어 모델(LLM)의 막대한 계산 및 메모리 요구량을 해결하기 위해 강화 학습 기반의 탄력적 가지치기 프레임워크인 RAP을 제안한다. 기존의 고정된 휴리스틱 방식과 달리, RAP은 실행 시간에 따라 메모리 변화와 다양한 사용자 요청으로 인한 이기종 KV-캐시 수요에 적응적으로 대응한다. 실행 중 모델 파라미터와 KV-캐시 간의 비율을 동적으로 추적하여, 메모리 한계 내에서 유틸리티를 극대화하는 구성 요소만 유지한다. 특히, 파라미터가 많은 FFN과 KV-캐시를 많이 사용하는 어텐션 레이어를 고려하여, 현재 작업량과 디바이스 상태에 따라 최적의 압축 전략을 동적으로 조정한다. 실험 결과, RAP은 기존 최첨단 기법들을 능가하는 성능을 보여주며, 모델 가중치와 KV-캐시를 동시에 고려하는 최초의 접근 방식임을 입증한다.

시사점, 한계점

시사점:
실행 시간에 따라 변하는 메모리 제약 및 이기종 KV-캐시 수요에 적응적으로 대응하는 LLM 압축 프레임워크를 제시.
모델 파라미터와 KV-캐시를 동시에 고려하여 압축 전략을 최적화, 기존 방식 대비 성능 향상.
강화학습을 통해 동적으로 압축 전략을 조정하는 새로운 접근 방식 제시.
한계점:
제안된 RAP 프레임워크의 일반화 성능 및 다양한 LLM 아키텍처에 대한 적용성에 대한 추가적인 연구 필요.
강화학습 학습 과정의 복잡성 및 계산 비용에 대한 고려 필요.
특정 하드웨어 환경에 최적화된 결과일 가능성 있으며, 다른 환경에서의 성능 보장은 추가 실험 필요.
👍