본 논문은 Retrieval-Augmented Generation (RAG)이 기업의 도메인 특정 데이터셋에서 직면하는 어려움, 즉 방화벽 뒤에 격리되어 있고 LLM의 사전 훈련 과정에서 접하지 못한 복잡하고 전문적인 용어가 풍부하다는 점을 해결하기 위한 새로운 방법인 'MetaGen Blended RAG'를 제시합니다. 기존 RAG의 세 가지 주요 문제점인 도메인 간 의미 변화, 파인튜닝의 비용 및 일반화 부족, 제로샷 정확도 달성 어려움을 해결하기 위해, 메타데이터 생성 파이프라인과 밀집 및 희소 벡터를 사용하는 하이브리드 쿼리 색인을 통해 의미 검색을 향상시키는 방법을 제안합니다. 핵심 개념, 주제 및 약어를 활용하여 메타데이터가 풍부한 의미 색인과 향상된 하이브리드 쿼리를 생성함으로써, 파인튜닝 없이 강력하고 확장 가능한 성능을 제공합니다. PubMedQA, SQuAD, NQ 데이터셋에서 기존 제로샷 RAG 기준 모델을 능가하고, 심지어 파인튜닝된 모델과도 경쟁할 만한 성능을 보여줍니다. 이는 전문 분야 간의 탁월한 일반화 능력을 갖춘 의미 검색 시스템 구축에 대한 새로운 접근 방식을 제시합니다.