Retrieval-Augmented Generation (RAG)은 방화벽 뒤에 격리되어 있고 사전 훈련 중 LLM이 접하지 못한 복잡하고 전문적인 용어가 풍부한 도메인 특정 엔터프라이즈 데이터셋에서 어려움을 겪습니다. 의학, 네트워킹 또는 법률과 같은 도메인 간의 의미적 변동성은 RAG의 컨텍스트 정밀도를 저해하며, 미세 조정 솔루션은 비용이 많이 들고 속도가 느리며 새로운 데이터가 등장함에 따라 일반화가 부족합니다. 미세 조정 없이 검색 엔진으로 제로샷 정밀도를 달성하는 것은 여전히 주요 과제입니다. 본 논문에서는 메타데이터 생성 파이프라인과 밀집 및 희소 벡터를 사용하는 하이브리드 쿼리 인덱스를 통해 의미 검색 엔진을 향상시키는 새로운 엔터프라이즈 검색 접근 방식인 'MetaGen Blended RAG'를 소개합니다. 주요 개념, 주제 및 약어를 활용하여 메타데이터가 풍부한 의미 인덱스와 강화된 하이브리드 쿼리를 생성하여 미세 조정 없이 강력하고 확장 가능한 성능을 제공합니다. 생물 의학 PubMedQA 데이터셋에서 MetaGen Blended RAG는 82%의 검색 정확도와 77%의 RAG 정확도를 달성하여 이전 모든 제로샷 RAG 벤치마크를 능가하고 해당 데이터셋에서 미세 조정된 모델과도 경쟁하며, SQuAD 및 NQ와 같은 데이터셋에서도 뛰어난 성능을 보여줍니다. 이 접근 방식은 전문 도메인에서 탁월한 일반화 기능을 갖춘 의미 검색 엔진을 구축하는 새로운 접근 방식을 사용하여 엔터프라이즈 검색을 재정의합니다.