Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Shuffle-R1 : Cadre RL efficace pour les modèles de langage multimodaux volumineux via un mélange dynamique centré sur les données
Created by
Haebom
Auteur
Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai
Contour
Cet article présente une méthode visant à améliorer l'efficacité de l'apprentissage par renforcement (RL) afin d'optimiser la capacité d'inférence des modèles linguistiques multimodaux à grande échelle (MLLM). Les pipelines RL existants souffrent de deux problèmes : l'« effondrement des avantages » et le « silençage des déploiements ». En effet, la plupart des avantages sont concentrés à un niveau proche de zéro et la proportion de déploiements produisant des gradients non nuls diminue avec le temps. Pour résoudre ces problèmes, nous proposons le framework Shuffle-R1, qui reconfigure dynamiquement l'échantillonnage des trajectoires et les configurations par lots afin d'optimiser l'optimisation de l'apprentissage par renforcement. Shuffle-R1 introduit l'« échantillonnage de trajectoires par paires », qui améliore la qualité du signal de gradient en sélectionnant des trajectoires à fort contraste, et le « mélange de trajectoires basé sur les avantages », qui révèle des déploiements précieux. Les résultats expérimentaux obtenus sur divers benchmarks d'inférence démontrent que Shuffle-R1 surpasse les modèles de base RL robustes avec une surcharge minimale.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons un nouveau cadre (Shuffle-R1) qui améliore considérablement l'efficacité de la formation RL pour améliorer la capacité d'inférence de MLLM.
◦
Cela résout efficacement les problèmes d'effondrement et de silence d'expansion des avantages, permettant des mises à jour de gradient optimisées.
◦
Nous démontrons qu’une approche basée sur les données peut améliorer l’efficacité de la formation RL.
◦
A démontré des performances supérieures par rapport aux méthodes existantes dans divers tests d'inférence.
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de Shuffle-R1.
◦
Cela peut n'être efficace que pour certains types de tâches MLLM ou d'inférence.
◦
Manque d’analyse détaillée du coût de calcul et de la complexité de la méthode proposée.