Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TreeBoN: Cải thiện sự liên kết thời gian suy luận với tìm kiếm cây suy đoán và lấy mẫu tốt nhất trong N

Created by
  • Haebom

Tác giả

Jiahao Qiu, Yifu Lu, Yifan Zeng, Jia Cheng Guo, Jiayi Geng, Chenhao Zhu, Xinzhe Juan, Ling Yang, Huazheng Wang, Kaixuan Huang, Yue Wu, Mengdi Wang

Phác thảo

Bài báo này đề xuất một phương pháp cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn thông qua việc căn chỉnh thời gian suy luận. Trong khi phương pháp lấy mẫu Best-of-N (BoN) thông thường tốn kém chi phí tính toán, TreeBoN được đề xuất tích hợp chiến lược tìm kiếm cây dự đoán để giảm chi phí tính toán mà vẫn duy trì chất lượng đầu ra cao. TreeBoN sử dụng phần thưởng cấp token có nguồn gốc từ Tối ưu hóa Ưu tiên Trực tiếp (DPO) để hướng dẫn mở rộng cây và loại bỏ các đường dẫn chất lượng thấp. Kết quả đánh giá sử dụng các tập dữ liệu AlpacaFarm, HH-RLHF, UltraFeedback, GSM8K và TutorEval cho thấy TreeBoN vượt trội hơn BoN thông thường, đạt tỷ lệ thắng 65% trên tập dữ liệu TutorEval.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu TreeBoN, một khuôn khổ mới hiệu quả để sắp xếp theo thời gian suy luận.
Duy trì chất lượng đầu ra cao trong khi giảm chi phí tính toán so với BoN thông thường.
Giải pháp này hoạt động tốt trên nhiều tập dữ liệu khác nhau, đạt tỷ lệ chiến thắng cao là 65% trong TutorEval.
Hướng dẫn duyệt cây hiệu quả bằng DPO.
Limitations:
Việc cải thiện hiệu suất của TreeBoN có thể chỉ giới hạn ở một số tập dữ liệu và mô hình cụ thể. Cần thử nghiệm với nhiều mô hình và tập dữ liệu hơn.
Vì một số bộ phận phụ thuộc vào DPO nên hiệu suất của TreeBoN có thể bị ảnh hưởng bởi chất lượng của DPO.
Do tính phức tạp của các chiến lược tìm kiếm cây, chi phí tính toán vẫn có thể cao trong một số trường hợp. Cần nghiên cứu thêm để xác định các thông số tìm kiếm cây tối ưu.
👍