本稿では、大規模言語モデル(LLM)の複雑なコード推論能力を向上させるための新しい方法を紹介します。 LLMは日常的なコーディング作業では優れたパフォーマンスを示していますが、プログラムの意味についての非汎用的な推論を必要とする複雑な作業では失敗する可能性があります。これらの問題を解決するために、この研究は、意味的不均等ゲーム(SInQ)に基づいてコード推論学習データを合成的に生成する方法を探ります。生成エージェントは、実際のプログラミングジョブデータセットから派生した意味的に区別されるプログラムバリアントを生成し、評価エージェントは、元のプログラムと生成されたバリアントの動作が異なる入力例を識別します。両方のエージェントは半分の敵対的にお互いを学習し、これらの設定は理論的に無限の計算リソースを想定して自己再生を通じて無限に改善できることを証明します。さまざまなコード生成と理解ベンチマーク(多言語脆弱性検出、Python組み込み識別子交換ベンチマークを含む)で実験を通じて提案された方法の効果を検証し、Pythonコードのみで学習したにもかかわらず、C / C ++コードの脆弱性検出を改善し、既存LLMが困難を経験したPython内蔵実験の再現に必要なコードと生成された合成データを公開し、他の研究者がLLMの微調整に活用できるようにしました。