본 논문은 Retrieval-augmented generation (RAG)의 이론적 측면을 최초로 탐구한 연구입니다. 특히, in-context linear regression 상황에서 RAG에 대한 유한 표본 일반화 경계를 제시하고 정확한 bias-variance tradeoff를 도출했습니다. 회수된 텍스트를 쿼리에 종속적인 노이즈가 있는 in-context 예시로 보고, 기존의 in-context learning (ICL)과 표준 RAG를 극한 경우로 회복하는 프레임워크를 제시합니다. 이 분석을 통해 ICL과 달리 RAG에는 일반화 오차에 대한 고유한 상한선이 존재함을 시사하고, 훈련 데이터와 외부 말뭉치 모두에서의 정보 검색을 균일 및 비균일 RAG 노이즈를 도입하여 모델링합니다. 이론과 일치하게 Natural Questions 및 TriviaQA와 같은 일반적인 QA 벤치마크에서의 실험을 통해 ICL 및 RAG의 표본 효율성을 실증적으로 보여줍니다.