본 논문은 검색 증강 생성(RAG)에서 계산 비용을 줄이기 위해 추출적 압축을 사용하는 소규모 언어 모델의 한계를 다룹니다. 기존의 추출적 압축 방식은 관련성이 높은 문서에서도 질문과 무관하거나 사실적으로 오류가 있는 정보를 포함하여 중요 정보의 누락을 초래할 수 있다는 문제점을 지적합니다. 이를 해결하기 위해, 본 논문은 검색된 문서를 보다 세분화하여 분류하고, 노이즈에 강인한 추출적 압축(ACoRN) 방법을 제시합니다. ACoRN은 두 가지 새로운 학습 단계를 도입합니다. 첫째, 오프라인 데이터 증강을 통해 두 가지 유형의 검색 노이즈에 대한 압축기의 강인성을 향상시키고, 둘째, 다중 문서 정보 활용의 제한 및 위치 편향 문제를 해결하기 위해 정답을 직접 뒷받침하는 핵심 정보를 중심으로 요약을 생성하도록 미세 조정합니다. 실험 결과, ACoRN을 압축기로 사용하여 학습된 T5-large는 정답 문자열을 유지하면서 EM 및 F1 점수를 향상시키는 것으로 나타났습니다. 특히 정확도를 저하시키는 문서가 많은 데이터셋에서 효과적임을 보여줍니다.