本稿では、個人用GPT(Private GPT)が要件に基づいて実行可能なテストコードを自動的に生成する能力を調査します。具体的には、現代の開発プロセスで一般的に使用されているエピックまたはストーリーの一部として定式化された受け入れ基準を入力として使用して、製品所有者またはビジネスインテリジェンスがLLMを介して直接テスト可能な基準を生成できるようにします。 LLMが要件から直接コードを生成する方法と、Gherkin構文を使用する中間段階を経る2つの方法で生成されたテストの品質を評価します。その結果、2段階の手順は、人間が読みやすく、最高のコーディング慣行(コード行数とテストに一般的に使用される追加のライブラリを使用)の面でより良い結果をもたらすことがわかりました。 「Hello World」プログラムと数値分類モデルの2つのシナリオで、プロンプト効果を具体的に評価して、構造化されたプロンプトがより高品質のテスト出力につながることを示しています。