Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
RLTHF : Feedback humain ciblé pour l'alignement LLM
Created by
Haebom
Auteur
Yifei Xu, Tusher Chakraborty, Emre K{\i}c{\i}man, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma, Roberto Estevao, Maria Angels de Luis Balaguer, Jessica Wolk, Rafael Padilha, Leonardo Nunes, Shobana Balakrishnan, Songwu Lu, Ranveer Chandra
Contour
Cet article propose RLTHF, un cadre hybride humain-IA, pour répondre au coût élevé de l'apprentissage par renforcement basé sur le feedback humain (RLHF) et à la généralisation limitée du feedback de l'IA dans le processus d'alignement des modèles linguistiques à grande échelle (LLM) sur les préférences des utilisateurs. RLTHF réalise un alignement complet annoté par l'homme avec un minimum d'effort en combinant l'alignement initial basé sur le LLM avec des annotations humaines sélectives. Il utilise la distribution des récompenses du modèle de récompense pour identifier les échantillons difficiles mal classés par le LLM et améliore itérativement l'alignement en exploitant les échantillons correctement classés par le LLM tout en intégrant des corrections humaines stratégiques. Les résultats de l'évaluation sur les ensembles de données HH-RLHF et TL;DR démontrent que RLTHF réalise un alignement complet annoté par l'homme avec seulement 6 à 7 % des tâches annotées par l'homme. De plus, les modèles entraînés sur l'ensemble de données organisé par RLTHF surpassent les modèles entraînés sur l'ensemble de données annoté par l'homme complet sur les sous-tâches, soulignant l'efficacité de RLTHF.
Takeaways, Limitations
•
Takeaways:
◦
Une nouvelle approche pour répondre efficacement au coût élevé du RLHF est présentée.
◦
Réaliser un alignement de modèle de haut niveau avec un effort humain minimal.
◦
Les modèles formés avec RLTHF surpassent les modèles basés sur des données entièrement annotées existantes.
◦
Démontrer l’efficacité d’une approche hybride qui combine efficacement les atouts du LLM avec l’expertise humaine.
•
Limitations:
◦
Les performances du RLTHF peuvent dépendre de la précision du modèle de récompense. Une baisse des performances du modèle de récompense peut entraîner une baisse de l'efficacité du RLTHF.
◦
ÉTant donné que les résultats de l’évaluation proviennent d’un ensemble de données limité (HH-RLHF, TL;DR), des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation à d’autres ensembles de données ou tâches.
◦
Il existe un manque d’analyse détaillée des types d’erreurs commises par les LLM et des erreurs corrigées par les humains.
◦
Des recherches supplémentaires sont nécessaires pour optimiser la stratégie d’annotation humaine sélective du RLTHF.