Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MLLM-CBench : une référence complète pour l'optimisation continue des LLM multimodaux avec analyse du raisonnement par chaîne de pensée

Created by
  • Haebom

Auteur

Haiyun Guo, ZhiYan Hou, Yu Chen, Jinghan He, Yandu Sun, Yuzhe Zhou, Shujing Guo, Kuan Zhu, Jinqiao Wang

Contour

Cet article présente MLLM-CTBench, un benchmark pour le réglage continu des instructions des modèles linguistiques multimodaux à grande échelle (MLLM). MLLM-CTBench comprend sept tâches soigneusement sélectionnées dans six domaines différents. Il fournit une métrique d'évaluation multidimensionnelle (combinant la précision de la réponse finale et la qualité de l'inférence de la chaîne de pensée (CoT)), une évaluation complète des algorithmes d'apprentissage continu (huit algorithmes répartis en quatre catégories principales) et une comparaison de l'efficacité du réglage fin renforcé (RFT) et du réglage fin supervisé (SFT) (basée sur la rétention des performances du modèle entre les tâches successives). Les résultats expérimentaux démontrent que le processus d'inférence MLLM est plus robuste à l'oubli pendant l'apprentissage continu que la sortie finale, et qu'un modèle de base robuste présente une plus forte résistance à l'oubli. Une RFT correctement régularisée s'avère une approche plus robuste pour la rétention des performances entre les tâches que la SFT, soulignant l'importance de la régularisation de la divergence KL.

Takeaways, Limitations

Takeaways:
Fournir MLLM-CTBench, une référence systématique pour l'ajustement pédagogique continu du MLLM.
Les mesures d’évaluation multidimensionnelles permettent une analyse détaillée des capacités d’apprentissage continu de MLLM.
Une évaluation complète de divers algorithmes d’apprentissage continu et fournit des informations exploitables pour la conception et l’adoption d’algorithmes.
Une comparaison entre RFT et SFT révèle que RFT, en particulier RFT avec régularisation de divergence KL, est plus efficace dans l'apprentissage continu.
Il a été démontré expérimentalement que le processus d'inférence de MLLM est plus robuste à l'oubli que son résultat final.
Limitations:
La portée de la tâche MLLM-CTBench peut être limitée.
La possibilité de subjectivité dans la sélection des indicateurs et des algorithmes d’évaluation.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l’environnement et des paramètres expérimentaux.
👍