Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

OR-LLM-Agent: Tự động hóa mô hình hóa và giải quyết các vấn đề tối ưu hóa nghiên cứu hoạt động bằng LLM suy luận

Created by
  • Haebom

Tác giả

Bowen Zhang, Peng Cheng Luo, Genke Yang, Boon-Hee Soong, Châu Nguyên

Phác thảo

Với sự tiến bộ của trí tuệ nhân tạo (AI) và việc ứng dụng ngày càng tăng của các mô hình ngôn ngữ quy mô lớn (LLM) vào giải quyết vấn đề toán học, bài báo này đề xuất OR-LLM-Agent, một khuôn khổ tác nhân AI để giải quyết vấn đề nghiên cứu vận hành (OR) tự động dựa trên LLM có khả năng suy luận. OR-LLM-Agent phân tích quá trình giải quyết vấn đề thành ba giai đoạn: mô hình hóa toán học, tạo mã và gỡ lỗi, với các tác nhân phụ chuyên dụng cho từng giai đoạn cho phép suy luận tập trung hơn. Hơn nữa, chúng tôi đã xây dựng tập dữ liệu BWOR, một tập dữ liệu giải quyết vấn đề OR, để đánh giá khả năng giải quyết vấn đề OR của LLM. Kết quả thử nghiệm cho thấy OR-LLM-Agent sử dụng DeepSeek-R1 vượt trội hơn các phương pháp tiên tiến hiện có như GPT-o3, Gemini 2.5 Pro, DeepSeek-R1 và ORLM ít nhất 7% về độ chính xác, chứng minh hiệu quả của việc phân tách tác vụ để giải quyết vấn đề OR. Chúng tôi đặt mục tiêu khắc phục những hạn chế của các phương pháp hiện có dựa trên kỹ thuật nhanh chóng hoặc các chiến lược tinh chỉnh bằng cách triển khai một khuôn khổ tác nhân dựa trên các LLM dựa trên suy luận. Mặc dù các tiêu chuẩn hiện có (NL4OPT, MAMO, IndustryOR) đã chỉ ra rằng các LLM suy luận đôi khi hoạt động kém hơn các LLM không suy luận cùng họ mô hình, nhưng tập dữ liệu BWOR mới được trình bày cho thấy khả năng của mô hình có thể được đánh giá một cách nhất quán và phân biệt hơn.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh bằng thực nghiệm rằng độ chính xác của việc giải quyết vấn đề OR có thể được cải thiện thông qua chiến lược phân tích nhiệm vụ dựa trên suy luận LLM.
Chúng tôi trình bày một tập dữ liệu OR mới, BWOR, bổ sung cho những hạn chế của các chuẩn đánh giá LLM hiện có.
Chúng tôi trình bày hiệu quả của OR-LLM-Agent, một khuôn khổ tác nhân AI mới để giải quyết các vấn đề về phẫu thuật.
Limitations:
Cần có thêm nghiên cứu về quy mô và tính đa dạng của tập dữ liệu BWOR.
Cần phải đánh giá hiệu suất tổng quát của OR-LLM-Agent cho nhiều loại vấn đề phẫu thuật khác nhau.
Vẫn còn chỗ để cải thiện về cách các tác nhân phụ tương tác và giao tiếp với nhau.
Cần phải xác minh ứng dụng và hiệu suất cho các vấn đề công nghiệp thực tế.
👍