본 논문은 대규모 언어 모델(LLM)의 계산 및 저장 비용을 줄이기 위한 모델 압축 및 KV 캐시 압축에 대한 최근 연구 동향을 검토하고, 검색 증강 생성, 다단계 추론, 외부 도구 활용, 계산적 표현력 향상 등 LLM 성능 향상에 기여하는 요소들을 분석합니다. 그리고 주어진 LLM과 특정 과제에 대해, 다단계 추론 및 외부 도구의 지원을 받아 원래 LLM과 동일한 성능을 낼 수 있는 더 작은 "로터리 LLM"이 존재한다는 가설(Lottery LLM hypothesis)을 제시합니다. 마지막으로, 기존 압축 방법에서 간과되고 있는 로터리 LLM과 KV 캐시 압축이 갖춰야 할 필수 기능들을 논의하고 요약합니다.