Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Vàng có độ tin cậy thấp: Tinh chỉnh các mẫu có độ tin cậy thấp để điều chỉnh hướng dẫn hiệu quả

Created by
  • Haebom

Tác giả

Hongyi Cai, Jie Li, Mohammad Mahdinur Rahman, Wenzhen Dong

Phác thảo

Bài báo này đề xuất Low-Confidence Gold (LCG), một khung lọc mới giúp cải thiện hiệu quả tinh chỉnh chỉ thị trong các mô hình ngôn ngữ quy mô lớn. LCG xác định các cặp chỉ thị có giá trị bằng cách sử dụng phân cụm dựa trên trọng tâm và lựa chọn dựa trên độ tin cậy. Học bán giám sát sử dụng bộ phân loại nhẹ tạo ra các tập con chất lượng cao trong khi vẫn duy trì tính đa dạng của dữ liệu. Kết quả thực nghiệm cho thấy một mô hình được tinh chỉnh trên 6.000 mẫu được lọc bởi LCG vượt trội hơn các phương pháp hiện có, thể hiện mức tăng hiệu suất đáng kể trên MT-bench và mức tăng hiệu suất nhất quán trên các chỉ số đánh giá toàn diện. Hiệu quả của khung này trong việc cải thiện hiệu suất đồng thời duy trì hiệu suất mô hình cho thấy một hướng đi đầy hứa hẹn cho việc tinh chỉnh chỉ thị hiệu quả.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng khuôn khổ LCG có thể cải thiện hiệu suất tinh chỉnh chỉ thị của các mô hình ngôn ngữ quy mô lớn chỉ với một lượng nhỏ dữ liệu chất lượng cao.
Chúng tôi đề xuất một phương pháp tinh chỉnh chỉ thị hiệu quả so với các phương pháp tinh chỉnh dựa trên dữ liệu khối hiện có.
Chúng tôi chứng minh tính hiệu quả của một kỹ thuật lọc dữ liệu mới kết hợp giữa phân cụ dựa trên trung tâm và lựa chọn dựa trên độ tin cậy.
ĐạT được những cải tiến hiệu suất nhất quán trên nhiều chỉ số đánh giá khác nhau, bao gồm cả MT-bench.
Limitations:
Hiệu suất của LCG có thể phụ thuộc vào hiệu suất của bộ phân loại nhẹ.
Các thí nghiệm được tiến hành với kích thước dữ liệu hạn chế là 6K và cần nghiên cứu thêm để xác định hiệu suất tổng quát cho các tập dữ liệu lớn hơn.
Có thể thiên về một số loại chỉ thị hoặc tập dữ liệu nhất định.
Cần phải xác nhận thêm về khả năng khái quát hóa của khuôn khổ này.
👍