Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization

Created by
  • Haebom

作者

Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang

概要

LLMベースのエージェントはソフトウェアエンジニアリングおよび機械学習研究の分野で注目されていますが、組み合わせ最適化(CO)の発展の役割は比較的研究されていません。本論文は、体系的な調査のための包括的なベンチマークの欠如のために構造化され、制約の多い問題解決に対するLLMエージェントの可能性の理解が欠けていることを強調しています。これを解決するために、さまざまなドメインと複雑さレベルで得られた36の実際のCO問題を含むCO-Benchというベンチマークのコレクションを紹介します。 CO-Benchには、厳密なLLMエージェント調査を支援するための構造化問題の定式化とキュレーションデータが含まれています。既存の人が設計したアルゴリズムについていくつかのエージェントフレームワークを評価し、既存のLLMエージェントの強みと限界を明らかにし、今後の研究のための有望な方向を提示する。 CO-Benchはhttps://github.com/sunnweiwei/CO-Benchで公に利用可能です。

Takeaways、Limitations

Takeaways:さまざまなドメインと複雑さレベルの実際のCO問題を含む包括的なベンチマークであるCO-Benchを提供し、LLMベースのエージェントの組み合わせ最適化の問題解決能力の体系的な研究を可能にします。既存アルゴリズムとの比較評価によりLLMエージェントの強みと弱点を把握し,今後の研究方向を提示
Limitations:ベンチマークに含まれる問題の種類と範囲が、LLMエージェントの全体的なパフォーマンスを完全に反映していない可能性があります。評価に使用されるエージェントフレームワークの多様性が不足する可能性があります。新しいLLMアーキテクチャとトレーニング方法論の進歩に応じて、ベンチマークの適切性が変化する可能性があります。
👍