[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Thúc đẩy việc tạo ra dữ liệu tăng cường truy xuất cho doanh nghiệp có cấu trúc và dữ liệu nội bộ

Created by
  • Haebom

Tác giả

Chandana Cheerla

Phác thảo

Bài báo này đề xuất một khuôn khổ RAG (Retrieval-Augmented Generation) tiên tiến sử dụng dữ liệu cụ thể của doanh nghiệp như hồ sơ nhân sự, báo cáo có cấu trúc và tài liệu dạng bảng, vốn rất cần thiết cho việc ra quyết định của công ty. Để giải quyết những hạn chế của các khuôn khổ RAG hiện có như tiền huấn luyện tĩnh, cửa sổ ngữ cảnh ngắn và xử lý định dạng dữ liệu không đồng nhất, chúng tôi áp dụng chiến lược tìm kiếm kết hợp giữa nhúng dày đặc (all-mpnet-base-v2) và BM25, lọc dựa trên siêu dữ liệu sử dụng SpaCy NER và xếp hạng lại bộ mã hóa chéo. Ngoài ra, chúng tôi cải thiện hiệu suất bằng cách phân đoạn các đơn vị ngữ nghĩa, duy trì cấu trúc dữ liệu dạng bảng, lập chỉ mục lượng tử, phản hồi của người dùng và các chức năng bộ nhớ hội thoại. Kết quả của các thử nghiệm trên các tập dữ liệu của công ty cho thấy Precision@5 được cải thiện 15%, Recall@5 được cải thiện 13% và xếp hạng ngược trung bình được cải thiện 16%, đồng thời cho thấy những cải thiện về mặt định tính về độ chính xác, tính đầy đủ và tính liên quan. Trong tương lai, chúng tôi có kế hoạch mở rộng dữ liệu đa phương thức và tích hợp tìm kiếm dựa trên tác nhân, đồng thời mã nguồn sẽ được công khai.

Takeaways, Limitations

Takeaways:
Trình bày một khuôn khổ RAG tiên tiến để sử dụng hiệu quả dữ liệu nội bộ của công ty
Khắc phục những hạn chế của RAG hiện có thông qua các chiến lược tìm kiếm kết hợp, lọc siêu dữ liệu và phân đoạn đơn vị ngữ nghĩa
Cung cấp phản hồi với độ chính xác, đầy đủ và liên quan được cải thiện
Cải thiện hiệu quả tìm kiếm thông qua lập chỉ mục lượng tử
Khả năng thích ứng được cải thiện thông qua phản hồi của người dùng và tính năng ghi nhớ cuộc trò chuyện
Chứng minh định lượng sự cải thiện hiệu suất thông qua kết quả thử nghiệm
Limitations:
Hiện tại, nghiên cứu chỉ giới hạn ở dữ liệu nội bộ doanh nghiệp. Cần có sự tổng quát hóa cho nhiều loại dữ liệu và quy mô khác nhau.
Dữ liệu đa phương thức và truy xuất dựa trên tác nhân vẫn là những thách thức nghiên cứu trong tương lai.
Thiếu thông tin cụ thể về các tập dữ liệu thử nghiệm và số liệu đánh giá
ĐượC tối ưu hóa cho các tập dữ liệu doanh nghiệp cụ thể và có thể có khả năng khái quát hóa hạn chế đối với các môi trường khác
👍