Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Trong bài báo này, chúng tôi trình bày InfoMax, một phương pháp cắt tỉa dữ liệu mới giúp tối đa hóa nội dung thông tin và giảm thiểu sự dư thừa. InfoMax đo lường nội dung thông tin của từng mẫu riêng lẻ bằng cách sử dụng điểm quan trọng của chúng và định lượng sự dư thừa dựa trên độ tương đồng giữa các mẫu. Bài toán lựa chọn tập lõi được xây dựng dưới dạng bài toán lập trình bậc hai rời rạc (DQP), tối đa hóa tổng đóng góp của từng mẫu riêng lẻ trừ đi sự dư thừa do các mẫu tương tự tạo ra. Sử dụng một bộ giải dựa trên gradient hiệu quả, một kỹ thuật thưa thớt hóa cho ma trận tương đồng và một chiến lược phân vùng tập dữ liệu, chúng tôi đảm bảo khả năng mở rộng ngay cả với các tập dữ liệu có hàng triệu mẫu. Chúng tôi chứng minh bằng thực nghiệm hiệu suất vượt trội của InfoMax trên nhiều tác vụ cắt tỉa dữ liệu khác nhau, bao gồm phân loại hình ảnh, tiền huấn luyện ngôn ngữ thị giác và điều chỉnh lệnh của các mô hình ngôn ngữ quy mô lớn. Mã có sẵn tại https://github.com/hrtan/InfoMax .
InfoMax, một phương pháp cắt tỉa dữ liệu mới (lựa chọn tập hợp lõi) dựa trên số lượng thông tin, được trình bày.
◦
Phát triển các thuật toán có khả năng mở rộng và có thể áp dụng hiệu quả cho các tập dữ liệu quy mô lớn.
◦
Hiệu suất tuyệt vời đã được xác minh trong nhiều lĩnh vực như phân loại hình ảnh, đào tạo trước ngôn ngữ thị giác và tinh chỉnh mô hình ngôn ngữ quy mô lớn.
◦
Khả năng tái tạo được đảm bảo thông qua mã mở.
•
Limitations:
◦
Cần phân tích sâu hơn về hiệu suất và hiệu quả của bộ giải dựa trên độ dốc để giải quyết các vấn đề DQP.
◦
Cần có sự xác nhận bổ sung về hiệu suất tổng quát trên nhiều tập dữ liệu và mô hình khác nhau.
◦
Vẫn còn chỗ để cải thiện về điểm quan trọng của mẫu và các biện pháp tương đồng.