Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học các phép trừu tượng thời gian thông qua các phép đồng cấu biến thể trong các MDP trừu tượng được tạo ra bởi tùy chọn

Created by
  • Haebom

Tác giả

Thường Lý, Yaren Zhang, Haoran Lv, Qiong Cao, Chao Xue, Xiaodong He

Phác thảo

Bài báo này trình bày một khuôn khổ cho suy luận ngầm hiệu quả của các mô hình ngôn ngữ quy mô lớn (LLM). Phương pháp gợi ý CoT thông thường có nhược điểm là tốn kém về mặt tính toán và chậm, vì vậy trong bài báo này, chúng tôi đề xuất một phương pháp suy luận trong không gian tiềm ẩn mà không cần tạo ra quy trình tính toán một cách rõ ràng dưới dạng văn bản. Để đạt được mục đích này, chúng tôi mô hình hóa quy trình suy nghĩ tiềm ẩn như một hành động trừu tượng (tùy chọn) được mở rộng theo thời gian trong một khuôn khổ học tăng cường phân cấp, và học các tùy chọn khác nhau dưới dạng nhúng tiềm ẩn bằng thuật toán phê bình tùy chọn Markov biến phân (VMOC). Chúng tôi mở rộng lý thuyết về đồng cấu MDP liên tục để chứng minh rằng học chính sách trong không gian tiềm ẩn bảo toàn giải pháp tối ưu của bài toán phức tạp ban đầu, và đề xuất một quy trình khởi động lạnh chắt lọc các minh họa suy luận của con người vào không gian tùy chọn tiềm ẩn bằng cách sử dụng dữ liệu tinh chỉnh có giám sát (SFT). Kết quả thực nghiệm trên các chuẩn mực suy luận logic phức tạp và các tác vụ di chuyển chứng minh tính hiệu quả của khuôn khổ được đề xuất.

Takeaways, Limitations

Takeaways:
Một khuôn khổ mới cho suy luận ngầm hiệu quả trong LLM
Đề Xuất một phương pháp suy luận dựa trên không gian tiềm ẩn để giải quyết các vấn đề về chi phí tính toán và tốc độ
Học các quá trình tư duy tiềm ẩn hiệu quả bằng cách sử dụng thuật toán phê bình tùy chọn Markov biến thiên (VMOC)
Thiết lập nền tảng lý thuyết thông qua việc mở rộng lý thuyết đồng cấu MDP liên tục
Đề Xuất quy trình khởi động lạnh sử dụng dữ liệu Điều chỉnh giám sát (SFT)
Thể hiện hiệu suất vượt trội trong các nhiệm vụ kiểm soát và suy luận logic
Limitations:
Cần có thêm nghiên cứu về hiệu suất tổng quát của khuôn khổ đề xuất.
Cần đánh giá khả năng áp dụng và khả năng mở rộng cho nhiều loại vấn đề khác nhau
Cần cải thiện tính ổn định và hiệu quả học tập của thuật toán VMOC
Cần phải nghiên cứu để đảm bảo tính khả thi và minh bạch của không gian tiềm năng.
👍