본 논문은 대규모 언어 모델(LLM)에 외부 지식을 효과적으로 통합하는 방법으로서, 검색 증강 생성(RAG)과 긴 문맥(LC) LLM을 비교 분석합니다. 기존 연구들의 비교 결과가 불확실한 점을 보완하기 위해, RAG와 LC LLM을 엄격하게 비교하기 위한 새로운 벤치마크 LaRA를 제시합니다. LaRA는 네 가지 실용적인 질의응답 작업 범주와 세 가지 유형의 자연 발생 긴 텍스트에 걸쳐 2326개의 테스트 사례를 포함합니다. 오픈소스 및 독점 LLM 7개와 4개를 사용한 체계적인 평가를 통해, RAG와 LC 중 최적의 선택은 모델의 매개변수 크기, 장문 텍스트 처리 능력, 문맥 길이, 작업 유형 및 검색된 청크의 특성을 포함한 복잡한 요소들의 상호 작용에 달려 있음을 밝힙니다. 본 연구는 실무자들이 RAG와 LC 접근 방식을 효과적으로 활용하여 LLM 애플리케이션을 개발 및 배포할 수 있도록 실용적인 지침을 제공하며, 코드와 데이터셋은 GitHub에서 공개합니다.