QZhou-Embedding là một mô hình nhúng văn bản theo ngữ cảnh đa năng, được phát triển bằng mô hình Qwen2.5-7B-Instruct. Mô hình này có một khung đa tác vụ tích hợp, kết hợp các phương pháp chuyển đổi dữ liệu, tích hợp các tập dữ liệu văn bản đa dạng và các chiến lược học tập theo từng tác vụ cụ thể để nâng cao hiệu quả huấn luyện mô hình. Mô hình này tăng cường độ phong phú ngữ nghĩa và độ khó của mẫu thông qua một đường ống tổng hợp dữ liệu sử dụng API LLM, đồng thời áp dụng chiến lược học tập hai giai đoạn: tiền huấn luyện tập trung vào truy xuất và tinh chỉnh tác vụ toàn cục. Mô hình đạt hiệu suất tiên tiến trên các chuẩn MTEB và CMTEB, đồng thời thể hiện hiệu suất vượt trội trong các tác vụ như xếp hạng lại và phân cụm. Điều này chứng minh rằng dữ liệu đa dạng, chất lượng cao là rất quan trọng để cải thiện hiệu suất mô hình truy xuất, và việc tận dụng các khả năng sinh của LLM có thể góp phần cải thiện hiệu suất mô hình nhúng. Các trọng số mô hình được mã nguồn mở từ HuggingFace theo giấy phép Apache 2.0, và mã đánh giá cùng hướng dẫn có sẵn trên GitHub để tái tạo.