Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CARFT: Nâng cao khả năng lập luận LLM thông qua phương pháp học tương phản với phương pháp tinh chỉnh tăng cường dựa trên chuỗi suy nghĩ có chú thích

Created by
  • Haebom

Tác giả

Wenqiao Zhu, Ji Liu, Rongjun Cheng Zhang, Haipang Wu và Yulun Zhang

Phác thảo

Bài báo này đề xuất phương pháp học tương phản với CoT-based Reinforced Fine-Tuning (\TheName{}), một phương pháp tinh chỉnh dựa trên học tăng cường mới để cải thiện khả năng suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết các vấn đề về lấy mẫu đường suy luận không ổn định và bỏ qua các quá trình suy nghĩ có chú thích (CoT) trong các phương pháp dựa trên RL hiện có, cũng như việc quá nhấn mạnh vào CoT trong các phương pháp SFT hiện có, chúng tôi tìm hiểu các biểu diễn cho từng CoT và thiết kế các tín hiệu tương phản mới để hướng dẫn quá trình tinh chỉnh. \TheName{} sử dụng đầy đủ các CoT có chú thích trong khi kết hợp các tín hiệu học không giám sát để ổn định quá trình tinh chỉnh. Các kết quả thử nghiệm sử dụng ba phương pháp cơ sở, hai mô hình cơ sở và hai tập dữ liệu chứng minh những lợi thế đáng kể của \TheName{} về độ mạnh mẽ, hiệu suất (cải thiện tới 10,15%) và hiệu quả (cải thiện tới 30,62%).

Takeaways, Limitations

Takeaways:
Trình bày một phương pháp mới hiệu quả để cải thiện hiệu suất suy luận của LLM.
Giải quyết các vấn đề bất ổn định và sụp đổ mô hình của các phương pháp dựa trên RL hiện có, đó là _____T21486____-.
Sử dụng CoT có chú thích một cách hiệu quả để cải thiện hiệu suất và tăng hiệu quả.
Thực hiện quá trình tinh chỉnh ổn định và hiệu quả thông qua phương pháp học tương phản.
_____T21487____-:
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Cần có thêm các thí nghiệm trên các LLM và tập dữ liệu khác nhau.
Có khả năng hiệu suất cải thiện của \TheName{} có thể bị giới hạn ở một số tập dữ liệu hoặc mô hình cụ thể.
Chi phí tính toán có thể tăng do độ phức tạp của thuật toán.
👍