추상적 압축은 검색 증강 생성(RAG)에서 계산 비용을 줄이기 위해 더 작은 언어 모델을 사용하여 쿼리와 관련된 컨텍스트를 압축하는 데 활용됩니다. 그러나 검색된 문서는 쿼리에 관련이 없거나, 사실적 오류로 인해 오해의 소지가 있는 정보를 포함하는 경우가 많습니다. 이러한 문제는 추상적 압축기가 특히 긴 컨텍스트에서 주의 분산이 발생할 때 정답에 필수적인 중요한 정보를 생략할 가능성이 높다는 것을 시사합니다. 이러한 문제를 해결하기 위해 검색된 문서를 보다 세분화된 방식으로 분류하고, 두 가지 새로운 훈련 단계를 도입하는 Abstractive Compression Robust against Noise (ACoRN)을 제안합니다. 첫째, 압축기의 두 가지 유형의 검색 노이즈에 대한 견고성을 향상시키기 위해 훈련 데이터 세트에 오프라인 데이터 증강을 사용합니다. 둘째, 언어 모델 기반 압축기는 여러 검색된 문서의 정보를 완전히 활용할 수 없고 위치 편향을 보이므로, 정답을 직접적으로 뒷받침하는 핵심 정보 중심으로 요약을 생성하도록 미세 조정합니다. 실험 결과 ACoRN으로 훈련된 T5-large가 정답 문자열을 보존하면서 EM 및 F1 점수를 향상시켰습니다. ACoRN은 정확도를 감소시키는 문서가 많은 데이터 세트에서 뛰어나 실제 시나리오에서 매우 유용합니다.