Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SourceSplice: Lựa chọn nguồn cho các tác vụ học máy

Created by
  • Haebom

Tác giả

Ambarish Singh, Romila Pradhan

Phác thảo

Bài báo này đề cập đến vấn đề chất lượng dữ liệu, vốn đóng vai trò quan trọng trong hiệu suất dự đoán của các tác vụ học máy (ML). Thách thức này càng trở nên trầm trọng hơn do số lượng lớn các nguồn dữ liệu có sẵn trong các tổ chức hiện đại. Các nghiên cứu khám phá dữ liệu hiện tại chủ yếu tập trung vào việc khớp siêu dữ liệu, độ tương đồng ngữ nghĩa hoặc xác định các bảng cần được kết hợp để trả lời một truy vấn cụ thể, nhưng chưa xem xét chất lượng nguồn để đảm bảo hiệu suất cao cho các tác vụ ML tiếp theo. Bài báo này đề cập đến vấn đề xác định tập con tối ưu của các nguồn dữ liệu cần được kết hợp để tạo thành tập dữ liệu huấn luyện chính cho một tác vụ ML nhất định. Vì mục đích này, chúng tôi đề xuất các khung SourceGrasp và SourceSplice, được thiết kế để lựa chọn hiệu quả một tập con nguồn phù hợp nhằm tối đa hóa tiện ích của các mô hình ML tiếp theo. Cả hai thuật toán đều dựa trên ý tưởng cốt lõi rằng các nguồn (hoặc tổ hợp các nguồn) đóng góp khác nhau vào tiện ích của tác vụ và cần được lựa chọn cẩn thận. SourceGrasp sử dụng một siêu thuật toán dựa trên lòng tham và sự ngẫu nhiên, trong khi khung SourceSplice trình bày một cơ chế lựa chọn nguồn lấy cảm hứng từ quá trình ghép nối gen. Các đánh giá thử nghiệm trên ba tập dữ liệu thực tế và tổng hợp cho thấy SourceSplice xác định hiệu quả các tập hợp con nguồn dữ liệu mang lại tính hữu dụng cao, ngay cả khi số lượng tập hợp con cần khám phá ít hơn đáng kể. Chúng tôi cũng tiến hành nghiên cứu báo cáo độ nhạy của các lựa chọn ra quyết định của SourceSplice trong nhiều bối cảnh khác nhau.

Takeaways, Limitations

Takeaways:
Một cách tiếp cận mới cho vấn đề lựa chọn nguồn dữ liệu nhằm cải thiện hiệu suất của các tác vụ ML.
Thuật toán SourceSplice lựa chọn hiệu quả tập hợp con dữ liệu tối ưu để đạt được tiện ích vận hành cao.
Xác thực hiệu quả của thuật toán thông qua đánh giá thực nghiệm sử dụng các tập dữ liệu thực và tổng hợp.
Xác minh độ tin cậy của thuật toán thông qua phân tích độ nhạy của SourceSplice.
Limitations:
Hiệu suất của thuật toán đề xuất có thể thay đổi tùy thuộc vào tập dữ liệu và tác vụ ML được sử dụng.
Cần nghiên cứu thêm để xác định liệu cơ chế lấy cảm hứng từ ghép nối gen của SourceSplice có thể áp dụng cho mọi loại nguồn dữ liệu hay không.
Cần phải đánh giá thử nghiệm trên các tập dữ liệu lớn hơn và đa dạng hơn.
Cần nghiên cứu thêm về cách xác định kích thước tập hợp con tối ưu cho các tác vụ ML cụ thể.
👍