Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SE-Agent: Tối ưu hóa quỹ đạo tự tiến hóa trong suy luận đa bước với các tác nhân dựa trên LLM

Created by
  • Haebom

Tác giả

Jiaye Lin, Yifu Guo, Yuzhen Han, Sen Hu, Ziyi Ni, Lichen Wang, Mingguang Chen, Daxin Jiang, Binxing Jiao, Chen Hu, Huacan Wang

Phác thảo

Bài báo này đề xuất SE-Agent, một khuôn khổ mới để tối ưu hóa quy trình giải quyết vấn đề (đường dẫn tương tác) của các tác tử dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi nhấn mạnh sự kém hiệu quả của các phương pháp hiện có, chẳng hạn như MCTS, do tính phụ thuộc lẫn nhau và thiếu không gian tìm kiếm đa dạng. SE-Agent tối ưu hóa quy trình giải quyết vấn đề theo cách tự tiến hóa thông qua ba thao tác: sửa đổi, kết hợp lại và cải thiện các đường dẫn hiện có. Điều này cho phép nó khám phá các đường dẫn giải pháp đa dạng và giảm thiểu tác động của các đường dẫn kém hiệu quả, do đó cải thiện hiệu suất. Kết quả thử nghiệm sử dụng SWE-bench Verified chứng minh rằng phương pháp của chúng tôi đạt được hiệu suất tiên tiến, đạt mức tăng hiệu suất lên đến 55% trên năm LLM mạnh mẽ.

Takeaways, Limitations

Takeaways:
Một cách tiếp cận mới để tối ưu hóa quá trình giải quyết vấn đề của các tác nhân dựa trên LLM.
Mở rộng không gian tìm kiếm và cải thiện hiệu suất thông qua khuôn khổ tự tiến hóa.
Học tập hiệu quả thông qua việc tái sử dụng các tuyến đường hiện có
Đã Xác thực tính thực tiễn và đạt được hiệu suất tuyệt vời (cải thiện hiệu suất lên đến 55%) bằng cách giải quyết các sự cố thực tế của GitHub.
Cải thiện khả năng truy cập thông qua việc công bố nguồn mở
Limitations:
Cần nghiên cứu thêm để xác định khả năng khái quát hóa của khuôn khổ đề xuất.
Vì kết quả đánh giá dành cho một miền cụ thể (vấn đề GitHub) nên cần phải xác minh khả năng mở rộng sang các miền khác.
Tiềm năng tăng chi phí tính toán (tính toán lặp lại quá trình tự tiến hóa)
Phụ thuộc vào bộ dữ liệu đã được xác minh của SWE-bench
👍