Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Repenser les tests pour les applications LLM : caractéristiques, défis et protocole d'interaction léger

작성자
  • Haebom

Auteur

Wei Ma, Yixiao Yang, Qiang Hu, Shi Ying, Zhi Jin, Bo Du, Zhenchang Xing, Tianlin Li, Junjie Shi, Yang Liu, Linxiao Jiang

Contour

Cet article aborde les défis de l'assurance qualité pour les applications de modèles de langage à grande échelle (LLM). Nous décomposons les applications LLM en trois couches : la couche shell système, la couche d'orchestration des invites et la couche centrale d'inférence LLM, et évaluons l'applicabilité des méthodes de test logiciel existantes à chaque couche. En analysant les différences entre les méthodologies de test en génie logiciel et en IA, nous identifions six défis clés et proposons quatre stratégies collaboratives (maintenance, transformation, intégration et exécution) pour les relever. De plus, nous proposons un cadre d'assurance qualité fiable et en boucle fermée combinant vérification avant déploiement et surveillance de l'exécution, ainsi que des directives et protocoles pratiques (AICL : Agent Interaction Communication Language) pour soutenir la standardisation et l'outillage des tests d'applications LLM.

Takeaways, Limitations_

Takeaways:
Nous proposons une approche systématique des tests d'applications LLM en présentant une structure hiérarchique des applications LLM et en proposant des méthodologies de test appropriées pour chaque couche.
Nous analysons les différences entre les méthodologies de test en ingénierie logicielle et en IA et proposons des stratégies collaboratives pour y remédier.
Nous proposons un cadre d'assurance qualité en boucle fermée et un protocole AICL pour jeter les bases de la normalisation et de l'outillage des tests d'application LLM.
Limitations:
Il existe un manque de vérification de la mise en œuvre pratique et de l’efficacité du protocole AICL proposé.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à différents types de candidatures LLM.
Des recherches supplémentaires sont nécessaires pour déterminer l’applicabilité pratique et l’efficacité de la stratégie de collaboration proposée.
👍