Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Liệu lý luận chuỗi suy nghĩ của LLM có phải là ảo ảnh? Một lăng kính phân phối dữ liệu

Created by
  • Haebom

Tác giả

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Diêm Thành Vương, Yingzhen Yang, Huân Liu

Phác thảo

Bài báo này phân tích sự cải thiện hiệu suất của các Mô hình Ngôn ngữ Lớn (LLM) thông qua việc gợi ý Chuỗi Tư duy (CoT) từ góc độ phân phối dữ liệu. Chúng tôi nghiên cứu xem liệu suy luận CoT có phản ánh các sai lệch quy nạp cấu trúc học được từ dữ liệu huấn luyện hay không, cho phép tạo ra các điều kiện xấp xỉ các đường suy luận quan sát được trong quá trình huấn luyện. Để đạt được điều này, chúng tôi thiết kế DataAlchemy, một môi trường được kiểm soát, nơi chúng tôi huấn luyện LLM từ đầu và nghiên cứu một cách có hệ thống các điều kiện phân phối khác nhau. Chúng tôi phân tích suy luận CoT trên ba chiều: nhiệm vụ, độ dài và định dạng. Kết quả của chúng tôi cho thấy suy luận CoT là một hiện tượng mong manh, biến mất bên ngoài phân phối huấn luyện, làm nổi bật khó khăn trong việc đạt được suy luận thực sự có thể khái quát hóa.

Takeaways, Limitations

Takeaways: Bằng cách chỉ ra những hạn chế của suy luận CoT từ góc độ phân phối dữ liệu, chúng tôi cung cấp hiểu biết sâu sắc hơn về khả năng suy luận của LLM. Chúng tôi cho rằng hiệu quả của việc nhắc nhở CoT về cơ bản bị hạn chế bởi mức độ không khớp phân phối giữa dữ liệu huấn luyện và truy vấn kiểm tra. Chúng tôi trình bày một phương pháp luận để phân tích một cách có hệ thống cơ chế suy luận của LLM bằng cách sử dụng một môi trường được kiểm soát như DataAlchemy.
Limitations: Môi trường DataAlchemy dựa trên kết quả thử nghiệm trong các điều kiện cụ thể, do đó cần nghiên cứu thêm để xác định khả năng tổng quát hóa của nó trong các môi trường thực tế phức tạp. Phân tích bị giới hạn ở một số khía cạnh nhất định (nhiệm vụ, độ dài, định dạng) và ảnh hưởng của các yếu tố quan trọng khác có thể chưa được xem xét. Cần nghiên cứu thêm để làm rõ hoàn toàn những hạn chế vốn có của suy luận CoT.
👍