Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

R-Stitch: Khâu quỹ đạo động cho suy luận hiệu quả

Created by
  • Haebom

Tác giả

Zhuokun Chen, Zeren Chen, Jiahao He, Mingkui Tan, Jianfei Cai, Bohan Zhuang

Phác thảo

Bài báo này đề xuất R-Stitch, một phương pháp mới giúp giảm chi phí tính toán của suy luận Chuỗi Tư duy (CoT). Suy luận CoT nâng cao khả năng giải quyết vấn đề của các mô hình ngôn ngữ quy mô lớn (LLM), nhưng lại tốn kém về mặt tính toán do giải mã tự hồi quy các chuỗi mã thông báo dài. Các chiến lược tăng tốc hiện có hoặc giảm độ dài chuỗi thông qua các lược đồ bù trừ nén hoặc dừng sớm, hoặc cải thiện tốc độ giải mã thông qua giải mã dự đoán sử dụng các mô hình quy mô nhỏ. Tuy nhiên, giải mã dự đoán có tốc độ tăng hạn chế khi độ phù hợp giữa các mô hình quy mô nhỏ và quy mô lớn thấp, và không tận dụng được các lợi ích tiềm năng của các mô hình quy mô nhỏ trong việc tạo ra các suy luận trung gian ngắn gọn. R-Stitch là một khuôn khổ giải mã lai dựa trên độ tin cậy ở cấp độ mã thông báo, chuyển đổi giữa các mô hình ngôn ngữ quy mô nhỏ (SLM) và các mô hình ngôn ngữ quy mô lớn (LLM), chỉ sử dụng LLM khi độ tin cậy của SLM giảm xuống dưới một ngưỡng, duy trì cả hiệu quả và độ chính xác. Nó độc lập với mô hình, không yêu cầu đào tạo và tương thích với các quy trình giải mã tiêu chuẩn. Các thí nghiệm đánh giá chuẩn suy luận toán học cho thấy R-Stitch giảm độ trễ suy luận tới 85% với độ suy giảm độ chính xác tối thiểu.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới giúp giảm hiệu quả chi phí tính toán của suy luận CoT.
Thực nghiệm đã chứng minh rằng độ trễ suy luận có thể giảm tới 85% mà hầu như không làm giảm độ chính xác.
Nó không phụ thuộc vào mô hình, không yêu cầu đào tạo và tương thích với các quy trình giải mã tiêu chuẩn, khiến nó trở nên rất thiết thực.
Limitations:
Có thể cần nghiên cứu thêm để thiết lập ngưỡng độ tin cậy cho SLM.
Có thể cần phải đánh giá thêm hiệu suất tổng quát cho các loại vấn đề và mô hình khác nhau.
Nếu sự khác biệt về hiệu suất giữa SLM và LLM lớn, việc cải thiện hiệu suất có thể bị hạn chế.
👍