この論文では、Retrieval-Augmented Generation(RAG)が企業のドメイン固有のデータセットに直面する困難、つまりファイアウォールの背後に分離されており、LLMの事前訓練の過程で触れられない複雑で専門的な用語が豊富であることを解決するための新しい方法である「MetaGen Blended RAG」を提示します。既存のRAGの3つの主要な問題であるドメイン間の意味の変化、ファインチューニングのコストと一般化の欠如、ゼロショット精度の達成困難を解決するために、メタデータ生成パイプラインと密集および希少ベクトルを使用するハイブリッドクエリインデックスを介してセマンティック検索を改善する方法を提案します。重要な概念、トピック、略語を活用してメタデータが豊富なセマンティクスインデックスとハイブリッドクエリを強化し、ファインチューニングなしで強力でスケーラブルなパフォーマンスを提供します。 PubMedQA、SQuAD、およびNQデータセットで既存のゼロショットRAG基準モデルを上回り、ファインチューニングされたモデルとも競合する可能性があります。これは、専門分野間の優れた一般化能力を備えたセマンティック検索システムの構築に対する新しいアプローチを提示する。