본 논문은 대규모 언어 모델(LLM)의 막대한 계산 및 메모리 요구량을 해결하기 위해 강화 학습 기반의 탄력적 가지치기 프레임워크인 RAP을 제안한다. 기존의 고정된 휴리스틱 방식과 달리, RAP은 실행 시간에 따라 메모리 변화와 다양한 사용자 요청으로 인한 이기종 KV-캐시 수요에 적응적으로 대응한다. 실행 중 모델 파라미터와 KV-캐시 간의 비율을 동적으로 추적하여, 메모리 한계 내에서 유틸리티를 극대화하는 구성 요소만 유지한다. 특히, 파라미터가 많은 FFN과 KV-캐시를 많이 사용하는 어텐션 레이어를 고려하여, 현재 작업량과 디바이스 상태에 따라 최적의 압축 전략을 동적으로 조정한다. 실험 결과, RAP은 기존 최첨단 기법들을 능가하는 성능을 보여주며, 모델 가중치와 KV-캐시를 동시에 고려하는 최초의 접근 방식임을 입증한다.