Bài báo này trình bày một phương pháp mới, "MetaGen Blended RAG", nhằm giải quyết những thách thức mà phương pháp Tạo dữ liệu Tăng cường Truy xuất (RAG) trên các tập dữ liệu chuyên biệt theo miền: bị cô lập sau tường lửa và chứa nhiều thuật ngữ phức tạp và chuyên ngành không gặp phải trong quá trình tiền huấn luyện LLM. Để giải quyết ba thách thức chính của các RAG hiện có—biến thiên ngữ nghĩa liên miền, chi phí tinh chỉnh và thiếu khả năng khái quát hóa, và khó khăn trong việc đạt được độ chính xác zero-shot—chúng tôi đề xuất một phương pháp để nâng cao khả năng truy xuất ngữ nghĩa thông qua một đường ống tạo siêu dữ liệu và một chỉ mục truy vấn lai sử dụng các vectơ dày đặc và thưa thớt. Bằng cách tận dụng các khái niệm, chủ đề và từ viết tắt chính để tạo ra một chỉ mục ngữ nghĩa giàu siêu dữ liệu và một truy vấn lai nâng cao, phương pháp của chúng tôi đạt được hiệu suất mạnh mẽ và có thể mở rộng mà không cần tinh chỉnh. Phương pháp này vượt trội hơn các mô hình cơ sở RAG zero-shot hiện có trên các tập dữ liệu PubMedQA, SQuAD và NQ, và thậm chí còn cạnh tranh với các mô hình tinh chỉnh. Đây là một cách tiếp cận mới để xây dựng các hệ thống truy xuất ngữ nghĩa với khả năng khái quát hóa vượt trội trên nhiều miền.