Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Shuffle-R1 : Cadre RL efficace pour les modèles de langage multimodaux volumineux via un mélange dynamique centré sur les données

Created by
  • Haebom

Auteur

Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

Contour

Cet article présente une méthode visant à améliorer l'efficacité de l'apprentissage par renforcement (RL) afin d'optimiser la capacité d'inférence des modèles linguistiques multimodaux à grande échelle (MLLM). Les pipelines RL existants souffrent de deux problèmes : l'« effondrement des avantages » et le « silençage des déploiements ». En effet, la plupart des avantages sont concentrés à un niveau proche de zéro et la proportion de déploiements produisant des gradients non nuls diminue avec le temps. Pour résoudre ces problèmes, nous proposons le framework Shuffle-R1, qui reconfigure dynamiquement l'échantillonnage des trajectoires et les configurations par lots afin d'optimiser l'optimisation de l'apprentissage par renforcement. Shuffle-R1 introduit l'« échantillonnage de trajectoires par paires », qui améliore la qualité du signal de gradient en sélectionnant des trajectoires à fort contraste, et le « mélange de trajectoires basé sur les avantages », qui révèle des déploiements précieux. Les résultats expérimentaux obtenus sur divers benchmarks d'inférence démontrent que Shuffle-R1 surpasse les modèles de base RL robustes avec une surcharge minimale.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre (Shuffle-R1) qui améliore considérablement l'efficacité de la formation RL pour améliorer la capacité d'inférence de MLLM.
Cela résout efficacement les problèmes d'effondrement et de silence d'expansion des avantages, permettant des mises à jour de gradient optimisées.
Nous démontrons qu’une approche basée sur les données peut améliorer l’efficacité de la formation RL.
A démontré des performances supérieures par rapport aux méthodes existantes dans divers tests d'inférence.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de Shuffle-R1.
Cela peut n'être efficace que pour certains types de tâches MLLM ou d'inférence.
Manque d’analyse détaillée du coût de calcul et de la complexité de la méthode proposée.
👍