本稿では、プログラミングガイドラインに基づいて高品質のユニットテストを生成するようにLLMを訓練する新しい強化学習フレームワークであるUTRLを提案します。 UTRLは、ユニットテストジェネレータとコードジェネレータという2つのLLMを敵対的に繰り返し訓練します。ユニットテストジェネレータは、コードジェネレータのソリューションで欠陥を明らかにするテストを生成する能力に応じて差別補償を最大化するように訓練され、コードジェネレータは、ユニットテストジェネレータが生成したユニットテストを通過するソリューションを生成する能力に応じてコード補償を最大化するように訓練されます。実験の結果、UTRLを介して訓練されたQwen3-4Bは、従来の地図学習アプローチとGPT-4.1などの最先端モデルよりも高品質のユニットテストを生成し、コード評価でより良いパフォーマンスを示しました。