Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM

Created by
  • Haebom

作者

Bowen Zhang, Pengcheng Luo, Genke Yang, Boon-Hee Soong, Chau Yuen

概要

本論文では、AI(AI)の発展に伴い、大規模言語モデル(LLM)を数学的問題解決に適用する研究が増加する傾向に基づいて、推論能力を備えたLLMベースの自動運用研究(OR)問題解決のためのAIエージェントフレームワークであるOR-LLM-Agentを提案します。 OR-LLM-Agentは、数学的なモデリング、コード生成、デバッグの3つのステップで、トラブルシューティングプロセスを分解し、各ステップを担当するサブエージェントを介してより集中的な推論を可能にします。また、LLMのOR問題解決能力を評価するためのORデータセットであるBWORを構築しました。実験の結果、DeepSeek-R1を使用したOR-LLM-Agentは、GPT-o3、Gemini 2.5 Pro、DeepSeek-R1、ORLMなど、従来の最先端の方法よりも精度上少なくとも7%以上向上した性能を示し、OR問題の解決に向けた課題分解の効果を示しています。既存のプロンプトエンジニアリングやファインチューニング戦略に依存する方法の限界を推論LLMベースのエージェントフレームワークを通じて克服しようとしました。従来のベンチマーク(NL4OPT、MAMO、IndustryOR)では、推論LLMが同じモデル系列の非推論LLMより性能が低い場合もありましたが、新しく提示されたBWORデータセットではモデルの能力をより一貫して差別的に評価できることを示しました。

Takeaways、Limitations

Takeaways:
推論LLMベースの課題分解戦略によってOR問題解決の精度を改善できることを実験的に証明した。
既存のLLM評価ベンチマークの限界を補完する新しいORデータセットBWORを提示。
OR問題解決のための新しいAIエージェントフレームワークOR-LLM-Agentの有効性を提示します。
Limitations:
BWORデータセットの規模と多様性に関する追加の研究が必要です。
様々なタイプのOR問題に対するOR-LLM-Agentの一般化性能評価が必要
サブエージェント間の相互作用と情報伝達方法の改善の余地がある。
実際の産業問題に対する適用と性能検証の必要性
👍