Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ACING : Acteur-critique pour l'apprentissage pédagogique dans les LLM en boîte noire

Created by
  • Haebom

Auteur

Salma Kharrat, Farès Fourati, Marco Canini

Contour

Cet article présente ACING, une technique d'optimisation automatisée des invites visant à améliorer les performances des modèles de langage à grande échelle (MLH). ACING, un framework basé sur l'apprentissage par renforcement, fonctionne même dans les environnements de type boîte noire où les paramètres et les gradients du LMH sont inaccessibles. Il formule l'optimisation des invites comme un problème d'action continue sans état, explorant un espace d'invites infini. Les résultats expérimentaux montrent qu'ACING génère des invites supérieures à celles générées par l'homme dans 76 % des cas pour diverses tâches (induction d'instructions, résumé et inférence de chaînes de pensée), obtenant jusqu'à 33 points et une amélioration médiane des performances de 10 points par rapport au meilleur modèle de référence automatisé. Des expériences complémentaires approfondies confirment la robustesse et l'efficacité d'ACING. Le code source est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Une technique efficace d’optimisation rapide pour le LLM en boîte noire est présentée.
Démontrer la faisabilité de générer automatiquement des invites qui surpassent les invites générées par l’homme.
Présentation d'un cadre général applicable à une variété de tâches LLM.
Reproductibilité et facilité d'utilisation accrues grâce à la divulgation du code source d'ACING.
Limitations:
Il est nécessaire de vérifier les performances de généralisation pour des LLM et des tâches spécifiques.
Une analyse plus approfondie du coût de calcul et du temps de formation d’ACING est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’applicabilité et les différences de performances des différents types de LLM de type boîte noire.
👍