Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Or à faible confiance : affiner les échantillons à faible confiance pour un réglage efficace des instructions

Created by
  • Haebom

Auteur

Hongyi Cai, Jie Li, Mohammad Mahdinur Rahman, Wenzhen Dong

Contour

Cet article propose Low-Confidence Gold (LCG), un nouveau cadre de filtrage pour améliorer l'efficacité du réglage fin des directives dans les modèles linguistiques à grande échelle. LCG identifie les paires de directives utiles grâce au clustering basé sur les centroïdes et à la sélection basée sur la confiance. L'apprentissage semi-supervisé utilisant des classificateurs légers génère des sous-ensembles de haute qualité tout en préservant la diversité des données. Les résultats expérimentaux montrent qu'un modèle affiné sur 6 000 échantillons filtrés par LCG surpasse les méthodes existantes, démontrant des gains de performance significatifs sur MT-bench et des gains de performance constants sur des métriques d'évaluation complètes. L'efficacité de ce cadre pour améliorer l'efficacité tout en maintenant les performances du modèle suggère une voie prometteuse pour un réglage fin efficace des directives.

Takeaways, Limitations

Takeaways:
Nous démontrons que le cadre LCG peut améliorer les performances du réglage fin des directives des modèles linguistiques à grande échelle avec seulement une petite quantité de données de haute qualité.
Nous proposons une méthode de réglage fin des directives efficace par rapport aux méthodes de réglage fin basées sur des données en masse existantes.
Nous démontrons l’efficacité d’une nouvelle technique de filtrage de données qui combine le clustering basé sur le centre et la sélection basée sur la confiance.
A obtenu des améliorations de performances constantes sur diverses mesures d'évaluation, y compris MT-bench.
Limitations:
Les performances du LCG peuvent dépendre des performances du classificateur léger.
Les expériences ont été menées avec une taille de données limitée à 6 Ko, et des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation pour des ensembles de données plus volumineux.
Peut être biaisé en faveur de certains types de directives ou d’ensembles de données.
Une validation supplémentaire de la généralisabilité du cadre est nécessaire.
👍