본 논문은 대규모 언어 모델(LLM)의 유용성을 높이기 위해 외부 지식을 통합하는 새로운 방법을 제안합니다. 기존의 검색 증강 생성(RAG) 방식은 유사도 검색을 통해 증거를 가져오지만, 중요 정보가 상위 결과에서 누락될 수 있다는 한계가 있습니다. 또한 긴 문맥 모델은 여러 문서를 처리할 수 있지만, 계산 비용이 많이 들고 문맥 창 크기에 제한을 받습니다. 본 논문에서는 학생들이 오픈북 시험을 위해 학습 자료를 요약하는 방식에서 영감을 얻어, 작업 지향적인 키-값(KV) 캐시 압축 기법을 제안합니다. 이 기법은 제로샷 또는 몇 샷 설정에서 외부 지식을 압축하여 LLM이 모든 관련 정보의 압축된 표현을 효율적으로 추론할 수 있도록 합니다. 실험 결과, 제안된 방법이 RAG 및 작업 비지향적 압축 방법보다 성능이 우수함을 보여줍니다. LongBench v2에서 RAG 대비 정확도를 최대 7점 향상시키면서 30배의 압축률을 달성했고, 추론 지연 시간을 0.43초에서 0.16초로 단축했습니다. 합성 데이터셋을 이용한 실험을 통해 RAG는 드문 증거만으로 충분할 때 성능이 우수하지만, 작업 지향적 압축은 광범위한 지식 작업에 더 우수함을 보여줍니다.