Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tổng quan tài liệu có hệ thống về thế hệ tăng cường truy xuất: Kỹ thuật, số liệu và thách thức

Created by
  • Haebom

Tác giả

Andrew Brown, Muhammad Roman, Barry Devereux

Phác thảo

Nghiên cứu này đã tiến hành tổng quan tài liệu một cách có hệ thống về 128 bài báo nghiên cứu được trích dẫn nhiều về thế hệ tìm kiếm tăng cường (RAG) được xuất bản từ năm 2020 đến tháng 5 năm 2025. Dữ liệu được thu thập từ các cơ sở dữ liệu bao gồm Thư viện số ACM, IEEE Xplore, Scopus, ScienceDirect và DBLP và được phân tích theo khuôn khổ PRISMA 2020. RAG kết hợp các mô hình truy xuất dựa trên mạng nơ-ron với các mô hình ngôn ngữ tạo sinh để tận dụng thông tin cập nhật trong khi vẫn bảo toàn các khái quát hóa ngữ nghĩa được lưu trữ trong các trọng số mô hình. Nghiên cứu này phân loại các tập dữ liệu, kiến ​​trúc và phương pháp đánh giá, đồng thời tổng hợp bằng chứng thực nghiệm về hiệu quả và hạn chế của RAG để làm rõ tình trạng nghiên cứu hiện tại, nêu bật các khoảng trống về phương pháp luận và đề xuất các hướng ưu tiên nghiên cứu trong tương lai. Đối với các bài báo được xuất bản vào năm 2025, chúng tôi đã hạ thấp ngưỡng trích dẫn để bao gồm các nghiên cứu đột phá gần đây.

Takeaways, Limitations

Takeaways:
Trình bày toàn diện bằng chứng thực nghiệm về hiệu quả và hạn chế của RAG.
Làm rõ tình trạng hiện tại và những khoảng trống về mặt phương pháp trong nghiên cứu RAG.
Đề Xuất các ưu tiên cho nghiên cứu RAG trong tương lai.
Thực hiện các chiến lược nhằm giảm thiểu sai lệch do trì hoãn trích dẫn (nới lỏng tiêu chí về số lượng trích dẫn đối với các bài báo được xuất bản vào năm 2025).
Limitations:
Việc lựa chọn dựa trên số lượng trích dẫn, do đó có khả năng các nghiên cứu quan trọng có thể bị bỏ sót ngay cả khi số lượng trích dẫn thấp.
Có khả năng xảy ra sai lệch do tìm kiếm bị giới hạn trong các cơ sở dữ liệu cụ thể.
Phạm vi nghiên cứu được giới hạn trong giai đoạn từ năm 2020 đến tháng 5 năm 2025, do đó có thể không phản ánh đầy đủ các xu hướng mới nhất.
👍