[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Thách thức của việc giảng dạy lý luận cho các LLM không có RL hoặc chưng cất

Created by
  • Haebom

Tác giả

Wei Du, Branislav Kisacanin, George Armstrong, Shubham Toshniwal, Ivan Moshkov, Alexan Ayrapetyan, Sadegh Mahdavi, Dan Zhao, Shizhe Diao, Dragan Masulovic, Marius Stanean, Advaith Avadhanam, Max Wang, Ashmit Dutta, Shitij Govil, Sri Yanamandara, Mihir Tandon, Sriram Ananthakrishnan, Vedant Rathi, David Zhang, Joonseok Kang, Leon Luo, Titu Andreescu, Boris Ginsburg, Igor Gitman

Phác thảo

Bài báo này nghiên cứu một mô hình ngôn ngữ suy luận đạt được hiệu suất tiên tiến trên nhiều tác vụ phức tạp bằng cách tạo ra các dấu vết Chuỗi suy nghĩ (CoT). Các nghiên cứu trước đây đã chỉ ra rằng các mô hình cơ sở có thể thu được các dấu vết suy luận như vậy từ các mô hình mạnh (ví dụ: DeepSeek-R1) thông qua học tăng cường hoặc chưng cất kiến thức, nhưng một số nghiên cứu đã chỉ ra rằng ngay cả việc nhắc nhở CoT ngắn mà không cần tinh chỉnh cũng có thể cải thiện hiệu suất suy luận. Trong bài báo này, chúng tôi đặt câu hỏi liệu có thể tạo ra các CoT dài từ các mô hình cơ sở chỉ bằng cách sử dụng nhắc nhở hoặc tinh chỉnh tối thiểu hay không. Chỉ sử dụng 20 ví dụ CoT dài từ mô hình suy luận QwQ-32B-Preview, chúng tôi tinh chỉnh nhẹ mô hình cơ sở Qwen2.5-32B và chứng minh rằng nó vượt trội hơn mô hình lớn hơn nhiều là Qwen2.5-Math-72B-Instruct. Điều này cho thấy rằng một số lượng nhỏ các ví dụ chất lượng cao có thể giúp giải phóng các khả năng suy luận mạnh mẽ. Chúng tôi cũng đã khám phá việc sử dụng dữ liệu CoT từ các mô hình phi suy luận nâng cao và người chú thích thông qua kỹ thuật nhanh, chỉnh sửa nhiều lần và hướng dẫn cấu trúc, nhưng không thể sánh được với hiệu suất theo dõi mô hình suy luận. Điều này cho thấy việc sao chép một số đặc điểm tiềm ẩn của CoT chuyên gia là rất khó khăn. Chúng tôi đã phân tích tác động của các đặc điểm chính của dữ liệu suy luận, chẳng hạn như độ khó của bài toán, tính đa dạng và độ dài câu trả lời, lên quá trình chắt lọc suy luận. Mặc dù vẫn còn nhiều thách thức, chúng tôi lạc quan rằng một lượng nhỏ CoT do con người biên soạn được tuyển chọn kỹ lưỡng có thể cho phép hành vi suy luận trong mô hình cơ sở. Chúng tôi đề xuất nghiên cứu sâu hơn bằng cách công bố các tập dữ liệu do con người biên soạn ở nhiều giai đoạn khác nhau và tìm hiểu lý do tại sao giám sát suy luận quy mô nhỏ lại hiệu quả.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc tinh chỉnh nhẹ bằng cách sử dụng một số lượng nhỏ các ví dụ CoT chất lượng cao có thể cải thiện đáng kể khả năng suy luận của mô hình cơ sở.
Chúng tôi chứng minh rằng dữ liệu CoT từ các mô hình suy luận hiệu quả hơn nhiều so với dữ liệu từ các mô hình không suy luận hoặc người chú thích.
Các đặc điểm dữ liệu như độ khó của vấn đề, tính đa dạng và độ dài câu trả lời ảnh hưởng đến quá trình suy luận.
Mở một tập dữ liệu CoT nhỏ do con người tạo ra để đặt nền tảng cho nghiên cứu sâu hơn.
Limitations:
Khó khăn trong việc mô phỏng dữ liệu CoT cho các mô hình suy luận. Dữ liệu từ các mô hình không suy luận hoặc người chú thích không đạt hiệu suất như mô hình suy luận.
Thách thức trong việc tạo và thu thập dữ liệu CoT chất lượng cao.
Cần có thêm nghiên cứu về hiệu suất tổng quát trên các tập dữ liệu nhỏ.
👍