Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CP-Bench: Evaluating Large Language Models for Constraint Modelling

Created by
  • Haebom

作者

Kostis Michailidis, Dimos Tsouros, Tias Guns

概要

本論文は、制約プログラミング(CP)のモデリングプロセスが専門知識を必要とすることで大衆化に苦しむことを指摘し、これを解決するために大規模言語モデル(LLM)を活用したCPモデリング自動化研究を扱う。既存の研究の限界である限定的な評価データセット問題を解決するために、さまざまな種類の結合最適化問題を含む新しいベンチマークCP-Benchを提示します。 CP-Benchを用いて抽象化レベルと構文の異なる3つのCPモデリングシステムに対するLLMのモデリング性能を比較評価し、プロンプトベースおよび推論時間計算方法を体系的に評価して最大70%の精度を達成した。特に、高レベルのPythonベースのフレームワークを使用すると、パフォーマンスが高くなりました。

Takeaways、Limitations

Takeaways:
LLMを活用したCPモデリング自動化の可能性を示す新しいベンチマークCP-Benchの提示
様々なCPモデリングシステムに対するLLMの性能比較評価により、高水準フレームワークの有効性を確認した。
プロンプトエンジニアリングと推論時間の計算方法の改善によるモデリング精度の向上の可能性の提示(最大70%達成)。
Limitations:
CP-Benchの問題範囲が実際のすべてのCP問題を完全に網羅していない可能性があります。
評価されたLLMとCPモデリングシステムは限られている可能性があります。様々なLLMとシステムのさらなる研究が必要です。
70%の精度は依然としてかなりの改善余地があることを示唆。より洗練されたLLMとプロンプトエンジニアリング技術の開発が必要です。
👍