Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Private GPTs for LLM-driven testing in software development and machine learning

Created by
  • Haebom

作者

Jakub Jagielski, Consuelo Rojas, Markus Abel

概要

本稿では、個人用GPT(Private GPT)が要件に基づいて実行可能なテストコードを自動的に生成する能力を調査します。具体的には、現代の開発プロセスで一般的に使用されているエピックまたはストーリーの一部として定式化された受け入れ基準を入力として使用して、製品所有者またはビジネスインテリジェンスがLLMを介して直接テスト可能な基準を生成できるようにします。 LLMが要件から直接コードを生成する方法と、Gherkin構文を使用する中間段階を経る2つの方法で生成されたテストの品質を評価します。その結果、2段階の手順は、人間が読みやすく、最高のコーディング慣行(コード行数とテストに一般的に使用される追加のライブラリを使用)の面でより良い結果をもたらすことがわかりました。 「Hello World」プログラムと数値分類モデルの2つのシナリオで、プロンプト効果を具体的に評価して、構造化されたプロンプトがより高品質のテスト出力につながることを示しています。

Takeaways、Limitations

Takeaways:
LLMを活用して、要件ベースのテストコードを自動生成できることを示します。
Gherkin構文を活用した2段階の手順がテストコードの品質向上に有効であることを示唆。
構造化されたプロンプトがテストコード生成の品質に重要な影響を与えることを確認してください。
製品所有者やビジネスインテリジェンスのテスト基準生成プロセスを簡素化する可能性を提示。
Limitations:
評価に使用されるシナリオは限られています(単純な「Hello World」プログラムと数値分類モデル)。
さまざまな種類の要件と複雑なシステムの一般化の可能性に関するさらなる研究が必要です。
Private GPTの特性と制約の具体的な説明の欠如
「より良い結果」の定量的指標の提示の欠如。 (単に人間が読みやすく、最高のコーディング慣行であるという主観的な評価に依存)。
👍