[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

IOPO : Donner aux LLM les moyens de suivre des instructions complexes grâce à l'optimisation des préférences d'entrée-sortie

Created by
  • Haebom

Auteur

Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li

Contour

Dans cet article, nous proposons une méthode de référence TRACE pour améliorer la capacité de suivi d'instructions complexes des modèles de langage à grande échelle (LLM), ainsi qu'une méthode d'alignement IOPO qui prend en compte à la fois les instructions et les préférences de réponse. TRACE se compose de 120 000 données d'apprentissage et de 1 000 données d'évaluation, et IOPO utilise des paires de préférences d'entrée et de sortie pour permettre aux LLM de s'adapter rapidement aux préférences de réponse tout en explorant finement les préférences d'instruction. Les résultats expérimentaux montrent qu'IOPO améliore les performances de 8,15 % et 2,18 % sur les données du domaine, et de 6,29 % et 3,13 % sur les données hors domaine, par rapport aux méthodes SFT et DPO existantes.

Takeaways, Limitations

Takeaways:
TRACE, une nouvelle référence pour évaluer et améliorer la capacité à suivre des instructions complexes
Proposer une méthode de tri IOPO efficace qui prend en compte à la fois les préférences d'entrée et de sortie
Vérification expérimentale des performances supérieures d'IOPO (confirmation de l'amélioration des performances sur les données à l'intérieur et à l'extérieur du domaine)
Limitations:
TRACE peut encore être limité en termes d'échelle (120 000 données de formation, 1 000 données d'évaluation)
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de l'IOPO
Manque possible d’évaluation complète des différents types d’instructions complexes
👍