Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Báo cáo kỹ thuật nhúng QZhou

Created by
  • Haebom

Tác giả

Peng Yu, En Xu, Bin Chen, Haibiao Chen, Yinfei Xu

Phác thảo

QZhou-Embedding là một mô hình nhúng văn bản theo ngữ cảnh đa năng, được phát triển bằng mô hình Qwen2.5-7B-Instruct. Mô hình này có một khung đa tác vụ tích hợp, kết hợp các phương pháp chuyển đổi dữ liệu, tích hợp các tập dữ liệu văn bản đa dạng và các chiến lược học tập theo từng tác vụ cụ thể để nâng cao hiệu quả huấn luyện mô hình. Mô hình này tăng cường độ phong phú ngữ nghĩa và độ khó của mẫu thông qua một đường ống tổng hợp dữ liệu sử dụng API LLM, đồng thời áp dụng chiến lược học tập hai giai đoạn: tiền huấn luyện tập trung vào truy xuất và tinh chỉnh tác vụ toàn cục. Mô hình đạt hiệu suất tiên tiến trên các chuẩn MTEB và CMTEB, đồng thời thể hiện hiệu suất vượt trội trong các tác vụ như xếp hạng lại và phân cụm. Điều này chứng minh rằng dữ liệu đa dạng, chất lượng cao là rất quan trọng để cải thiện hiệu suất mô hình truy xuất, và việc tận dụng các khả năng sinh của LLM có thể góp phần cải thiện hiệu suất mô hình nhúng. Các trọng số mô hình được mã nguồn mở từ HuggingFace theo giấy phép Apache 2.0, và mã đánh giá cùng hướng dẫn có sẵn trên GitHub để tái tạo.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng dữ liệu đa dạng, chất lượng cao là điều cần thiết để cải thiện hiệu suất của mô hình nhúng.
Trình bày phương pháp tối ưu hóa chất lượng dữ liệu bằng cách tận dụng khả năng tạo dữ liệu của LLM.
ĐạT hiệu suất cao nhất trong các tiêu chuẩn MTEB và CMTEB.
Hiệu suất tuyệt vời trong nhiều tác vụ khác nhau như xếp hạng lại và phân cụm.
ĐảM bảo khả năng tái tạo thông qua trọng số mô hình và công bố mã.
Limitations:
Bài báo không đề cập cụ thể đến Limitations.
Khả năng quá khớp với một tập dữ liệu cụ thể.
Thiếu đánh giá hiệu suất tổng quát cho các tiêu chuẩn hoặc nhiệm vụ khác.
Các vấn đề về chi phí và khả năng truy cập do phụ thuộc vào API LLM.
👍