본 논문은 기업 환경에서 도메인 특화 데이터셋을 활용한 Retrieval-Augmented Generation (RAG)의 정확도 저하 문제를 해결하기 위한 새로운 방법인 'MetaGen Blended RAG'를 제안합니다. 기존의 fine-tuning 기반 접근 방식의 단점인 속도 저하, 비용 증가, 일반화 성능 저하를 극복하기 위해, 메타데이터 생성 파이프라인을 통해 키워드, 주제, 약어 등의 메타데이터를 생성하고, 이를 활용하여 하이브리드 인덱스를 구축하고 검색 쿼리를 향상시키는 방식을 제시합니다. PubMedQA, SQuAD, NQ 등 다양한 질의응답 데이터셋에서 기존 RAG 방식 및 대형 언어 모델(GPT3.5)을 능가하는 성능을 보이며, 특히 PubMedQA에서는 fine-tuning 없이 82%의 검색 정확도와 77%의 RAG 정확도를 달성하여 새로운 성능 기준을 제시합니다.