Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ToolACE-R: Đào tạo lặp lại nhận biết mô hình và tinh chỉnh thích ứng cho việc học công cụ

Created by
  • Haebom

Tác giả

Tăng Xingshan, Lưu Uy Văn, Từ Hoàng, Zezhong Wang, Lingzhi Wang, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruiming Tang, Qun Liu

Phác thảo

Bài báo này thảo luận về học công cụ, một phương pháp tiếp cận đầy hứa hẹn để mở rộng khả năng của các mô hình ngôn ngữ quy mô lớn (LLM). Các phương pháp học công cụ hiện có chủ yếu tập trung vào tổng hợp dữ liệu để tinh chỉnh LLM nhằm gọi công cụ một cách hiệu quả, nhưng lại bỏ qua các phương pháp khai thác tối đa tiềm năng của mô hình. Bài báo này đề xuất ToolACE-R, một khuôn khổ mới kết hợp cả học lặp nhận biết mô hình và cải tiến thích ứng. ToolACE-R có quy trình học lặp nhận biết mô hình, điều chỉnh gia tăng các mẫu huấn luyện dựa trên khả năng phát triển của mô hình để tối đa hóa tiềm năng của nó. Hơn nữa, nó kết hợp một kho dữ liệu huấn luyện tự cải tiến, làm nổi bật khả năng tối ưu hóa lặp lại việc gọi công cụ của LLM mà không cần phản hồi từ bên ngoài. Hơn nữa, chúng tôi giới thiệu một cơ chế tự cải tiến thích ứng để kéo dài thời gian kiểm thử hiệu quả, cho phép mô hình đã được huấn luyện tự động quyết định khi nào nên dừng quá trình tự cải tiến lặp. Các thử nghiệm mở rộng trên nhiều tập dữ liệu chuẩn cho thấy ToolACE-R đạt được hiệu suất cạnh tranh so với các mô hình dựa trên API tiên tiến. Tự cải tiến thích ứng có thể nâng cao hiệu suất gọi công cụ một cách hiệu quả hơn nữa. Những kết quả này làm nổi bật tính hiệu quả và khả năng tổng quát hóa của ToolACE-R, đồng thời gợi ý những hướng đi đầy hứa hẹn cho việc học công cụ hiệu quả và có khả năng mở rộng hơn.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng tiềm năng của LLM có thể được tối đa hóa thông qua quy trình học lặp đi lặp lại có nhận thức về mô hình, điều chỉnh các mẫu đào tạo theo khả năng phát triển của mô hình.
Chúng tôi chứng minh tính hiệu quả của một kho dữ liệu đào tạo tự cải thiện giúp tối ưu hóa hiệu suất sử dụng công cụ của LLM mà không cần phản hồi từ bên ngoài.
Chúng tôi đề xuất rằng việc kéo dài thời gian thử nghiệm có thể được thực hiện hiệu quả thông qua cơ chế tự cải thiện thích ứng.
Chúng tôi chứng minh bằng thực nghiệm rằng ToolACE-R đạt được hiệu suất cạnh tranh so với các mô hình dựa trên API tiên tiến.
Limitations:
Bài báo này thiếu mô tả chi tiết về các thuật toán cụ thể và thông tin chi tiết về việc triển khai ToolACE-R.
Cần có thêm nghiên cứu về hiệu suất tổng quát trên nhiều loại công cụ và nhiệm vụ khác nhau.
Cần nghiên cứu thêm để xác định các thông số tối ưu của cơ chế tự cải thiện thích ứng.
Việc tiết lộ mã và dữ liệu là bắt buộc để đảm bảo khả năng tái tạo kết quả thử nghiệm.
👍