Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HyperAgent: Các tác nhân kỹ thuật phần mềm tổng quát để giải quyết các tác vụ mã hóa ở quy mô lớn

Created by
  • Haebom

Tác giả

Huy Nhật Phan, Tiến N. Nguyễn, Phong X. Nguyễn, Nghị DQ Bùi

Phác thảo

Bài báo này giới thiệu HyperAgent, một hệ thống đa tác tử tiên tiến, đa năng, được thiết kế để thực hiện nhiều tác vụ kỹ thuật phần mềm (SE) bằng nhiều ngôn ngữ lập trình khác nhau. HyperAgent có bốn tác tử chuyên biệt (Planner, Navigator, Code Editor và Executor) mô phỏng quy trình làm việc của một nhà phát triển phần mềm và xử lý toàn bộ vòng đời của một tác vụ SE, bao gồm lập kế hoạch, điều hướng, chỉnh sửa mã và thực thi. Chúng tôi chứng minh rằng HyperAgent vượt trội hơn các hệ thống tiên tiến hiện có trên nhiều tác vụ SE, bao gồm giải quyết các sự cố GitHub bằng công cụ chuẩn SWE-Bench, tạo mã cấp kho lưu trữ bằng RepoExec, và bản địa hóa lỗi cũng như sửa chữa chương trình bằng Defects4J.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng hệ thống đa tác nhân dựa trên LLM có thể mô phỏng hiệu quả quy trình làm việc của các nhà phát triển và tự động hóa nhiều tác vụ SE khác nhau.
HyperAgent đã chứng minh là một hệ thống đa năng có thể áp dụng cho các tác vụ SE chung, không giống như các hệ thống hiện tại chỉ giới hạn ở các chức năng cụ thể.
Chứng minh hệ thống xuất sắc bằng cách vượt qua hiệu suất tốt nhất trước đó trong nhiều tiêu chuẩn khác nhau.
Limitations:
Bài báo thiếu mô tả chi tiết về cách triển khai cụ thể của HyperAgent hoặc cơ chế hoạt động của từng tác nhân.
Mặc dù nó cho thấy hiệu suất chung cho nhiều tác vụ SE khác nhau, nhưng vẫn có khả năng hiệu suất bị giảm đối với một số loại tác vụ hoặc ngôn ngữ lập trình nhất định.
Cần phải xác minh thêm về khả năng áp dụng và tính ổn định trong môi trường thương mại thực tế.
👍