Bài báo này đề xuất hai phương pháp mới để giải quyết thách thức Limitations của Retrieval-Augmented Generation (RAG), vốn đang thu hút sự chú ý như một phương pháp tích hợp thông tin tiên tiến vào các mô hình ngôn ngữ quy mô lớn (LLM) hoặc xây dựng các mô hình miền cụ thể. RAG sử dụng nhiều mô hình nhúng, nhưng các đặc điểm không đồng nhất của chúng dẫn đến sự khác biệt trong kết quả tính toán độ tương đồng và chất lượng của các phản hồi LLM. Để giải quyết vấn đề này, chúng tôi đề xuất Mixture-Embedding RAG và Confident RAG. Mixture-Embedding RAG tích hợp các kết quả truy xuất của nhiều mô hình nhúng nhưng không cải thiện hiệu suất so với RAG thông thường. Mặt khác, Confident RAG tạo ra các phản hồi nhiều lần bằng cách sử dụng nhiều mô hình nhúng và chọn phản hồi có độ tin cậy cao nhất. Phương pháp này cải thiện hiệu suất lần lượt khoảng 10% và 5% so với LLM và RAG thông thường. Kết quả nhất quán trên nhiều LLM và mô hình nhúng khác nhau chứng minh rằng Confident RAG là phương pháp cắm và chạy hiệu quả, có thể áp dụng cho nhiều lĩnh vực.