Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CO-Bench: Đánh giá chuẩn các tác nhân mô hình ngôn ngữ trong tìm kiếm thuật toán để tối ưu hóa kết hợp

Created by
  • Haebom

Tác giả

Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang

Phác thảo

Mặc dù các tác tử dựa trên LLM đã thu hút sự chú ý đáng kể trong nghiên cứu kỹ thuật phần mềm và học máy, vai trò của chúng trong việc thúc đẩy tối ưu hóa tổ hợp (CO) vẫn còn tương đối ít được nghiên cứu. Bài báo này nhấn mạnh việc thiếu một chuẩn mực toàn diện cho việc nghiên cứu có hệ thống, điều này cản trở sự hiểu biết của chúng ta về tiềm năng của các tác tử LLM trong việc giải quyết các vấn đề có cấu trúc và bị ràng buộc. Để giải quyết vấn đề này, chúng tôi giới thiệu CO-Bench, một bộ chuẩn mực bao gồm 36 bài toán CO thực tế từ nhiều lĩnh vực và mức độ phức tạp khác nhau. CO-Bench kết hợp các công thức bài toán có cấu trúc và dữ liệu được chọn lọc để hỗ trợ việc nghiên cứu nghiêm ngặt các tác tử LLM. Bằng cách đánh giá một số khuôn khổ tác tử so với các thuật toán do con người thiết kế hiện có, chúng tôi khám phá ra điểm mạnh và hạn chế của các tác tử LLM hiện có và đề xuất các hướng nghiên cứu đầy hứa hẹn trong tương lai. CO-Bench có sẵn công khai tại https://github.com/sunnweiwei/CO-Bench .

Takeaways, Limitations

_____T191849____-: CO-Bench, một chuẩn mực toàn diện bao gồm các vấn đề CO thực tế trên nhiều lĩnh vực và mức độ phức tạp, cho phép nghiên cứu một cách có hệ thống về khả năng giải quyết vấn đề tối ưu hóa tổ hợp của các tác nhân dựa trên LLM. Các đánh giá so sánh với các thuật toán hiện có xác định điểm mạnh và điểm yếu của các tác nhân LLM và đề xuất các hướng nghiên cứu trong tương lai.
Limitations: Các loại và phạm vi vấn đề được đưa vào bài đánh giá chuẩn có thể không phản ánh đầy đủ hiệu suất tổng thể của các tác nhân LLM. Sự đa dạng của các khuôn khổ tác nhân được sử dụng trong đánh giá có thể chưa đủ. Tính phù hợp của bài đánh giá chuẩn có thể thay đổi khi các kiến trúc LLM và phương pháp đào tạo mới phát triển.
👍