Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AMFT: Điều chỉnh các nhà lý luận LLM bằng cách học siêu việt sự cân bằng tối ưu giữa bắt chước và khám phá

Created by
  • Haebom

Tác giả

Lixuan He, Jie Feng, Yong Li

Phác thảo

Bài báo này đề xuất một phương pháp mới để khắc phục những hạn chế của quy trình hai giai đoạn hiện có nhằm cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM): tinh chỉnh học có giám sát (SFT) và học tăng cường (RL). Phương pháp này coi SFT và RL là các tín hiệu phần thưởng bổ sung. Để giải quyết những nhược điểm của các phương pháp hiện có, chẳng hạn như quên thảm khốc và sự đánh đổi không tối ưu giữa bắt chước và khám phá, chúng tôi đề xuất Adaptive Meta-Fine-Tuning (AMFT), một thuật toán một giai đoạn học được sự cân bằng tối ưu giữa phần thưởng cấp đường dẫn của SFT và phần thưởng dựa trên kết quả của RL bằng cách giới thiệu khái niệm phần thưởng ngầm định. Cốt lõi của AMFT là bộ điều khiển trọng số thích ứng siêu gradient tối ưu hóa động sự cân bằng SFT-RL như một tham số có thể học được để tối đa hóa hiệu suất tác vụ dài hạn. Nó tự động khám phá các quy trình học hiệu quả bằng cách đảm bảo tính ổn định bằng cách sử dụng entropy chính sách. AMFT đạt hiệu suất vượt trội trên nhiều chuẩn mực, bao gồm suy luận toán học, suy luận trực quan trừu tượng (Điểm Tổng quát) và khám phá ngôn ngữ trực quan (V-IRL), đồng thời thể hiện hiệu suất tổng quát hóa xuất sắc trong các tác vụ phân tán ngoài (OOD). Thông qua các nghiên cứu cắt bỏ và phân tích động lực học, chúng tôi chứng minh rằng bộ điều khiển siêu học đóng vai trò quan trọng trong tính ổn định, hiệu suất lấy mẫu và hiệu suất của AMFT.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một thuật toán học tập một giai đoạn mới, AMFT, khắc phục được những hạn chế của phương pháp đường ống hai giai đoạn của SFT và RL hiện tại.
Tích hợp hiệu quả các tín hiệu phần thưởng từ SFT và RL bằng cách giới thiệu khái niệm phần thưởng ngầm định.
Cải thiện hiệu suất tác vụ dài hạn bằng cách tối ưu hóa động trạng thái cân bằng SFT-RL thông qua bộ điều khiển trọng số thích ứng meta-gradient.
ĐạT được hiệu suất tiên tiến và hiệu suất tổng quát tuyệt vời trên nhiều tiêu chuẩn khác nhau.
Cung cấp khả năng tái tạo và mở rộng nghiên cứu thông qua việc công bố mã nguồn mở.
Limitations:
Chi phí tính toán có thể tăng do tính phức tạp của thuật toán AMFT.
Cần phải xác thực thêm để khẳng định tiềm năng tối ưu hóa cho các chuẩn mực cụ thể và hiệu suất tổng quát cho các loại nhiệm vụ khác.
Cần có một phân tích và diễn giải sâu hơn về hành vi của bộ điều khiển trọng số thích ứng meta-gradient.
👍