본 논문은 Retrieval-augmented generation (RAG)에서 긴 길이, 노이즈, 입력 제한 등의 문제를 해결하기 위해 경량의 문장 단위 압축 프레임워크인 Sentinel을 제안합니다. 기존의 압축 방법과 달리 별도의 압축 모델을 학습하는 대신, 기존의 0.5B proxy LLM의 디코더 어텐션을 활용하여 문장의 관련성을 판단하는 경량 분류기를 사용합니다. 실험 결과, 0.5B proxy LLM의 문의-맥락 관련성 추정이 대규모 모델과 일치하며, LongBench 벤치마크에서 기존 7B 규모의 압축 시스템과 유사한 QA 성능을 유지하면서 최대 5배의 압축률을 달성했습니다. 이는 기존 어텐션 신호를 활용하여 빠르고 효과적이며 질문에 맞는 맥락 압축이 가능함을 보여줍니다.