Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Cobblestone: A Divide-and-Conquer Approach for Automating Formal Verification

작성자
  • Haebom

作者

Saketh Ram Kasibatla, Arpan Agarwal, Yuriy Brun, Sorin Lerner, Talia Ringer, Emily First

概要

本稿では、Coqなどの証明アシスタントを使用した形式的な検証の効率を向上させるために、大規模言語モデル(LLM)を活用した分割征服方式の新しい証明合成ツールであるCobblestoneを提案します。 CobblestoneはLLMを使用して潜在的な証明を生成し、これにより問題をより小さな部分に分割します。正常に証明された部分を自動的に識別し、残りの部分について繰り返して最終的に正確な証明を生成します。 LLMの不確実性にもかかわらず、Cobblestoneは生成された証明の正確性を保証します。実験の結果、Cobblestoneは既存の最先端のツールを上回る性能を示し、特に他のLLMベースのツールが証明できなかった多くのクリーンアップを証明しました。平均実行コストは1.25ドル、実行時間は14.7分で効率的です。さらに、ユーザーまたは他のツールからの外部入力を受けて、証明構造または関連する補助クリーンアップを利用することができ、この場合、最大58%のクリーンアップを証明できることがわかりました。この研究は、部分的な進捗状況と外部入力を活用して、形式的な検証自動化の効率を高めることができることを示しています。

Takeaways、Limitations

Takeaways:
LLMを利用した分割征服方式の証明合成は,形式的検証自動化の効率を大幅に改善できることを示した。
既存のLLMベースのツールの制限を克服し、より多くのクリーンアップを証明するための新しい可能性を提示します。
部分的な進捗状況と外部入力を効果的に活用する戦略が、正式な検証自動化にとって重要であることを強調します。
費用対効果の高い正式な検証自動化方法を提供します。
Limitations:
LLMの性能に依存し、LLMの限界がCobblestoneの性能に影響を与える可能性があります。
特定のタイプのクリーンアップでは、まだパフォーマンスが制限されている可能性があります。
ベンチマークデータセットの範囲は限られている可能性があり、よりさまざまな種類の問題のパフォーマンス評価が必要です。
👍