Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐIều chỉnh có giám sát trên dữ liệu được quản lý là học tăng cường (và có thể được cải thiện)

Created by
  • Haebom

Tác giả

Chongli Qin, Jost Tobias Springenberg

Phác thảo

Bài báo này diễn giải lại phương pháp Nhân bản Hành vi (BC), một phương pháp học có giám sát truyền thống, từ góc nhìn Học Tăng cường (RL), giải thích rằng nó tối đa hóa giới hạn dưới của hàm mục tiêu RL trong môi trường phần thưởng thưa thớt. Chúng tôi chứng minh rằng tinh chỉnh có giám sát (SFT) thông thường có thể được hiểu là một phương pháp để tối đa hóa giới hạn dưới này, và đề xuất rằng việc sửa đổi SFT thành tinh chỉnh có giám sát có trọng số tầm quan trọng (iw-SFT) cung cấp một phép xấp xỉ chính xác hơn của hàm mục tiêu RL. iw-SFT có thể vượt trội hơn SFT và khái quát hóa tốt trên dữ liệu có điểm chất lượng. Kết quả thực nghiệm chứng minh rằng iw-SFT có khả năng cạnh tranh với các thuật toán RL tiên tiến trên các mô hình ngôn ngữ quy mô lớn và các tác vụ điều khiển liên tục, đạt hiệu suất 66,7% trên tập dữ liệu AIME 2024.

Takeaways, Limitations

Takeaways:
Chúng tôi diễn giải lại SFT theo góc nhìn RL để củng cố nền tảng lý thuyết của nó.
Chúng tôi cải thiện hiệu suất của SFT bằng cách đề xuất iw-SFT.
Chúng tôi đề xuất một phương pháp để khái quát hóa SFT bằng cách tận dụng dữ liệu điểm chất lượng.
Đã đạT được những kết quả cạnh tranh trên các mô hình ngôn ngữ quy mô lớn và các nhiệm vụ điều khiển liên tục.
Limitations:
Hiệu suất cải thiện đạt được với iw-SFT có thể không nhất quán trong mọi trường hợp. Mức độ cải thiện hiệu suất có thể khác nhau tùy thuộc vào đặc điểm của dữ liệu.
Cần nghiên cứu thêm để xác định khả năng khái quát hóa của phương pháp được trình bày trong bài báo này. Cần có thêm các thử nghiệm trên nhiều môi trường và nhiệm vụ khác nhau.
Việc thiếu kết quả thử nghiệm trên các tập dữ liệu khác ngoài tập dữ liệu AIME 2024 làm dấy lên câu hỏi về hiệu suất khái quát hóa.
👍