Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Program Semantic Inequivalence Game with Large Language Models

Created by
  • Haebom

作者

Antonio Valerio Miceli-Barone, Vaishak Belle, Ali Payani

概要

本稿では、大規模言語モデル(LLM)の複雑なコード推論能力を向上させるための新しい方法を紹介します。 LLMは日常的なコーディング作業では優れたパフォーマンスを示していますが、プログラムの意味についての非汎用的な推論を必要とする複雑な作業では失敗する可能性があります。これらの問題を解決するために、この研究は、意味的不均等ゲーム(SInQ)に基づいてコード推論学習データを合成的に生成する方法を探ります。生成エージェントは、実際のプログラミングジョブデータセットから派生した意味的に区別されるプログラムバリアントを生成し、評価エージェントは、元のプログラムと生成されたバリアントの動作が異なる入力例を識別します。両方のエージェントは半分の敵対的にお互いを学習し、これらの設定は理論的に無限の計算リソースを想定して自己再生を通じて無限に改善できることを証明します。さまざまなコード生成と理解ベンチマーク(多言語脆弱性検出、Python組み込み識別子交換ベンチマークを含む)で実験を通じて提案された方法の効果を検証し、Pythonコードのみで学習したにもかかわらず、C / C ++コードの脆弱性検出を改善し、既存LLMが困難を経験したPython内蔵実験の再現に必要なコードと生成された合成データを公開し、他の研究者がLLMの微調整に活用できるようにしました。

Takeaways、Limitations

Takeaways:
セマンティック不均等ゲーム(SInQ)ベースの合成データ生成法を用いたLLMの複雑なコード推論能力の向上の可能性を提示
限られたデータでさえ、多言語とさまざまな種類のコード推論問題に対するパフォーマンスの向上の可能性を示しています。
生成された合成データ開示によるLLM研究の発展に貢献。
セルフプレイベースの継続的なパフォーマンス向上の可能性を提示します。
Limitations:
無限の計算資源を想定した理論的証明に対する実際の環境適用可能性の検討
生成された合成データの品質と多様性に関する追加の研究が必要です。
特定のベンチマークのパフォーマンス向上が他のすべての種類のコード推論問題に一般化できることを確認する必要があります。
実際の世界における複雑で多様なコード推論問題に対する一般化性能評価の必要性
👍