Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tối ưu hóa chính sách ngân sách phân cấp cho lý luận thích ứng

Created by
  • Haebom

Tác giả

Shangke Lyu, Linjuan Wu, Yuchen Yan, Xingyu Wu, Hao Li, Yongliang Shen, Peisheng Jiang, Weiming Lu, Jun Xiao, Yueting Zhuang

Phác thảo

Bài báo này trình bày khuôn khổ Tối ưu hóa Chính sách Ngân sách Phân cấp (HBPO) nhằm giải quyết tình trạng kém hiệu quả của các mô hình suy luận quy mô lớn, vốn liên tục thực hiện suy luận quá mức bất chấp nhu cầu tính toán thay đổi theo độ phức tạp của vấn đề. Không giống như các phương pháp hiện có dựa trên các ràng buộc cố định hoặc lựa chọn chế độ rời rạc, HBPO phân vùng không gian tìm kiếm thành các lớp bị ràng buộc ngân sách (512-2560 mã thông báo) với các cấu trúc phần thưởng khác biệt, duy trì cả hiệu quả và hiệu suất suy luận. Để giải quyết vấn đề về hình phạt độ dài thông thường loại trừ các đường suy luận trùng lặp, chúng tôi huấn luyện mô hình để chỉ thực hiện suy luận trùng lặp khi cần thiết, đồng thời duy trì tính đa dạng của quá trình khám phá thông qua lấy mẫu phân cấp và phần thưởng dựa trên ngân sách. Kết quả thử nghiệm chứng minh rằng HBPO giảm mức sử dụng mã thông báo trung bình tới 60,6% và cải thiện độ chính xác 3,14% trên bốn điểm chuẩn suy luận, đồng thời tự động điều chỉnh độ sâu suy luận một cách thích ứng dựa trên độ phức tạp của vấn đề. Tóm lại, chúng tôi chứng minh rằng học phân cấp phù hợp có thể đồng thời tối ưu hóa hiệu quả và hiệu suất suy luận.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày khả năng học một mô hình suy luận hiệu quả có thể điều chỉnh độ sâu suy luận một cách linh hoạt theo độ phức tạp của vấn đề.
Khắc phục những hạn chế của phương pháp phạt độ dài đơn giản hiện tại và xác nhận khả năng cải thiện hiệu quả và độ chính xác suy luận đồng thời.
Duy trì tính đa dạng tìm kiếm và ngăn ngừa suy luận quá mức thông qua phân vùng không gian tìm kiếm theo thứ bậc.
Đề Xuất rằng không có sự đánh đổi giữa hiệu quả suy luận và khả năng.
Limitations:
Cần nghiên cứu thêm để tối ưu hóa cấu trúc phân cấp và thiết lập ngân sách của HBPO.
Cần phải xác minh hiệu suất khái quát hóa cho nhiều loại vấn đề suy luận khác nhau.
Vì những kết quả này dành cho một chuẩn mực cụ thể nên cần nghiên cứu thêm để xác định khả năng khái quát hóa của chúng cho các nhiệm vụ suy luận khác.
Cần xem xét thêm để xác định xem phạm vi ràng buộc ngân sách của mã thông báo 512-2560 có phù hợp với mọi vấn đề hay không.
👍