Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ROSE: Khung lựa chọn dữ liệu hướng đến phần thưởng cho việc điều chỉnh hướng dẫn cụ thể cho nhiệm vụ LLM

Created by
  • Haebom

Tác giả

Yang Wu, Huayi Zhang, Yizheng Jiao, Lin Ma, Xiaozhong Liu, Jinhong Yu, Dongyu Zhang, Dezhi Yu, Wei Xu

Phác thảo

Bài báo này tập trung vào vấn đề lựa chọn dữ liệu để tinh chỉnh lệnh theo tác vụ cụ thể của các mô hình ngôn ngữ quy mô lớn (LLM). Các phương pháp hiện có chủ yếu dựa vào các biện pháp tương tự được xây dựng để chọn dữ liệu đào tạo phù hợp với phân phối dữ liệu thử nghiệm. Tuy nhiên, chúng tôi lưu ý rằng tổn thất tinh chỉnh lệnh (mất entropy chéo cho dự đoán mã thông báo tiếp theo) trong LLM không thể hiện mối quan hệ đơn điệu với hiệu suất tác vụ thực tế. Để giải quyết sự khác biệt này, chúng tôi trình bày Lựa chọn dữ liệu hướng dẫn theo phần thưởng (ROSE), một phương pháp mới tối ưu hóa việc lựa chọn dữ liệu để tinh chỉnh lệnh theo tác vụ cụ thể bằng cách sử dụng tổn thất ưu tiên theo cặp làm tín hiệu thưởng. ROSE chọn các điểm dữ liệu đào tạo có liên quan nhất bằng cách áp dụng công thức ảnh hưởng để ước tính ảnh hưởng của các điểm dữ liệu đào tạo trên một vài tập xác thực ưu tiên. Kết quả thử nghiệm chứng minh rằng ROSE đạt được kết quả cạnh tranh so với tinh chỉnh với toàn bộ tập dữ liệu đào tạo, vượt trội hơn các phương pháp lựa chọn dữ liệu hiện đại hiện có, ngay cả khi chỉ chọn 5% dữ liệu đào tạo. Phân tích định tính xác nhận khả năng khái quát hóa mạnh mẽ của phương pháp trên nhiều tập dữ liệu chuẩn và nhiều kiến ​​trúc mô hình khác nhau.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày ROSE, một phương pháp lựa chọn dữ liệu hiệu quả để tinh chỉnh chỉ thị theo từng nhiệm vụ cụ thể.
Giải quyết sự khác biệt giữa việc tinh chỉnh chỉ thị mất mát của phương pháp hiện tại, Limitations, và hiệu suất tác vụ thực tế.
ĐạT được hiệu suất tương tự như tinh chỉnh bằng cách sử dụng toàn bộ tập dữ liệu chỉ với một lượng dữ liệu nhỏ.
Hiệu suất mạnh mẽ được chứng minh trên nhiều tập dữ liệu và kiến ​​trúc mô hình khác nhau.
Limitations:
Hiệu suất của ROSE có thể phụ thuộc vào chất lượng của bộ xác thực tùy chọn.
Cần phải xác thực hiệu suất tổng quát rộng hơn cho các tác vụ hoặc kiến ​​trúc mô hình cụ thể.
Cần nghiên cứu thêm để xác định liệu việc sử dụng mất sở thích hai chiều làm tín hiệu phần thưởng có luôn là tối ưu hay không.
👍