Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol
Created by
Haebom
作者
Wei Ma, Yixiao Yang, Qiang Hu, Shi Ying, Zhi Jin, Bo Du, Zhenchang Xing, Tianlin Li, Junjie Shi, Yang Liu, Linxiao Jiang
概要
この論文は、大規模言語モデル(LLM)アプリケーションの品質保証の難しさについて説明します。 LLMアプリケーションをシステムシェル層、プロンプトオーケストレーション層、LLM推論コア層の3つの層に分解し、各層に既存のソフトウェアテスト方法の適用性を評価します。ソフトウェアエンジニアリングとAI分野のテスト方法論の違いを分析し、6つの重要な課題を導き、これを解決するための4つのコラボレーション戦略(維持、変換、統合、ランタイム)を提案します。また、デプロイメント前の検証とランタイムモニタリングを組み合わせた閉ループ、信頼できる品質保証フレームワーク、LLMアプリケーションテストの標準化とツールリングをサポートするための実践的なガイダンスとプロトコル(AICL:Agent Interaction Communication Language)も提案しています。