Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Liệu lý luận chuỗi suy nghĩ của LLM có phải là ảo ảnh? Một lăng kính phân phối dữ liệu

Created by
  • Haebom

Tác giả

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Diêm Thành Vương, Yingzhen Yang, Huân Liu

Phác thảo

Bài báo này nghiên cứu việc cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) thông qua việc gợi ý Chuỗi Tư duy (CoT) từ góc độ phân phối dữ liệu. Chúng tôi nghiên cứu liệu suy luận CoT có phản ánh các sai lệch quy nạp cấu trúc học được từ dữ liệu huấn luyện hay không, hay liệu hiệu quả của nó có bị hạn chế bởi mức độ không khớp về phân phối giữa các câu hỏi huấn luyện và câu hỏi kiểm tra hay không. Để phân tích suy luận CoT trên ba chiều—nhiệm vụ, độ dài và định dạng—chúng tôi đã thiết kế và sử dụng DataAlchemy, một môi trường được kiểm soát, trong đó các LLM được huấn luyện từ đầu và được kiểm tra một cách có hệ thống trong các điều kiện phân phối khác nhau. Kết quả của chúng tôi cho thấy suy luận CoT là một hiện tượng mong manh, sẽ biến mất khi phân phối huấn luyện bị lệch. Do đó, chúng tôi nhấn mạnh rằng việc đạt được suy luận thực sự có thể khái quát hóa vẫn là một nhiệm vụ đầy thách thức.

Takeaways, Limitations

Takeaways: Chúng tôi chứng minh rằng suy luận CoT phụ thuộc rất nhiều vào phân phối dữ liệu huấn luyện, và hiệu suất của nó giảm mạnh đối với dữ liệu có phân phối khác với dữ liệu huấn luyện. Điều này cho thấy những hạn chế của suy luận CoT và việc thiếu khả năng suy luận thực sự. Chúng tôi trình bày một phương pháp mới để đánh giá một cách có hệ thống khả năng suy luận của LLM trong một môi trường được kiểm soát như DataAlchemy.
Limitations: Môi trường DataAlchemy trình bày kết quả thử nghiệm trong các điều kiện cụ thể, do đó cần nghiên cứu thêm để xác định khả năng khái quát hóa cho các môi trường thực tế phức tạp. Nghiên cứu này nhấn mạnh những điểm yếu của suy luận CoT, nhưng thiếu thảo luận về những lợi thế của việc gợi ý CoT hoặc các lĩnh vực khác cần cải thiện. Vì những kết quả này có thể bị giới hạn ở một số loại LLM và tập dữ liệu cụ thể, nên cần nghiên cứu thêm về các mô hình và tập dữ liệu khác.
👍