Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation sélective des préférences via l'estimation de la fonction de récompense au niveau du jeton

Created by
  • Haebom

Auteur

Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Erxue Min, Sophia Ananiadou

Contour

Cet article propose l'optimisation sélective des préférences (SePO), une nouvelle stratégie d'alignement sélectif pour l'alignement de modèles de langage à grande échelle. Contrairement aux méthodes d'alignement au niveau des jetons existantes qui optimisent tous les jetons ou utilisent des stratégies complexes et coûteuses de sélection de jetons clés, SePO se concentre sur une sélection efficace de jetons clés. SePO présente la première méthode de sélection de jetons basée sur l'optimisation directe des préférences (DPO), qui entraîne un modèle oracle à estimer une fonction de récompense au niveau des jetons pour les données cibles. Cette méthode est applicable aux jeux de données d'alignement existants avec annotations au niveau des réponses et permet une sélection de jetons rentable à l'aide d'un petit modèle oracle et de données d'entraînement. La fonction de récompense estimée est utilisée pour évaluer tous les jetons du jeu de données cible, et seuls les jetons clés sont sélectionnés pour superviser le modèle de politique cible à l'aide d'une fonction objective contrastive sans modèle de référence. Des expériences approfondies sur trois benchmarks d'évaluation accessibles au public démontrent que SePO surpasse significativement les méthodes de référence concurrentes en optimisant seulement 30 % des jetons clés du jeu de données cible. L'application de SePO d'une généralisation faible à une généralisation forte démontre qu'un modèle d'oracle faible supervise efficacement un modèle de politique fort avec jusqu'à 16,8 fois plus de paramètres. De plus, SePO sélectionne efficacement les jetons clés parmi les données hors distribution, améliorant ainsi le modèle de politique fort et atténuant le problème de surapprentissage.

Takeaways, Limitations

Takeaways:
Résoudre les problèmes d'inefficacité et de bruit des méthodes de tri au niveau des jetons existantes grâce à une sélection efficace des jetons clés.
Nous présentons une nouvelle méthode de sélection de jetons basée sur DPO et garantissons son applicabilité à divers ensembles de données en utilisant uniquement des annotations au niveau de la réponse.
Sélection de jetons rentable avec de petits modèles d'oracle et des données de formation.
Nous démontrons expérimentalement qu’un modèle d’oracle faible peut superviser efficacement un modèle de politique fort.
Améliorer les modèles de politique robustes et atténuer les problèmes de surajustement grâce à la sélection de jetons clés à partir de données hors distribution.
Amélioration des performances vérifiée expérimentalement par rapport aux méthodes concurrentes.
Limitations:
Forte dépendance aux performances du modèle Oracle basé sur DPO. Si les performances du modèle Oracle se dégradent, celles de SePO peuvent également se dégrader.
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation des stratégies de sélection de jetons clés. Elles pourraient être suroptimisées pour des ensembles de données ou des tâches spécifiques.
Des recherches supplémentaires sont nécessaires pour étudier l’évolutivité de la méthode proposée et son applicabilité à diverses architectures de modèles.
👍