Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage augmenté des déclencheurs adverses

Created by
  • Haebom

Auteur

Zhe Wang, Yanjun Qi

Contour

Pour surmonter les limites de l'apprentissage des déclencheurs contradictoires (ATLA) actuel, cet article propose l'apprentissage des déclencheurs contradictoires avec objectifs augmentés (ATLA). ATLA améliore la fonction de perte de vraisemblance logarithmique négative existante en une fonction de perte pondérée, garantissant ainsi une meilleure optimisation des déclencheurs contradictoires appris pour les jetons de type réponse. Cela permet d'apprendre les déclencheurs contradictoires avec une seule paire question-réponse, garantissant une bonne généralisation à d'autres requêtes similaires. De plus, l'optimisation des déclencheurs est améliorée par l'ajout d'une fonction de perte auxiliaire qui supprime les réponses évasives. Les résultats expérimentaux démontrent qu'ATLA surpasse les techniques de pointe existantes, atteignant un taux de réussite proche de 100 % tout en nécessitant 80 % de requêtes en moins. Les déclencheurs contradictoires appris se généralisent également bien aux nouvelles requêtes et LLM. Le code source est accessible au public.

Takeaways, Limitations

Takeaways:
L’apprentissage par déclenchement contradictoire est possible avec une seule paire question-réponse.
Obtenez des taux de réussite et une efficacité plus élevés par rapport aux méthodes existantes (80 % de requêtes en moins)
Hautes performances de généralisation et potentiel d'apprentissage par transfert des déclencheurs appris
Efficace pour exploiter les vulnérabilités LLM et extraire les invites système
Assurer la reproductibilité grâce au code open source
Limitations:
Les performances de généralisation pour des LLM ou des types de requêtes spécifiques peuvent nécessiter une étude plus approfondie.
Des recherches d’optimisation sont nécessaires sur la conception et l’ajustement du poids des fonctions de perte auxiliaires.
La robustesse de l’ATLA face aux nouvelles techniques de défense doit être évaluée.
👍