Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Graphique-R1 : Supervision et renforcement de la chaîne de pensée pour le raisonneur graphique avancé

Created by
  • Haebom

Auteur

Lei Chen, Xuanle Zhao, Zhixiong Zeng, Jing Huang, Yufeng Zhong, Lin Ma

Contour

Cet article présente le modèle Chart-R1, qui applique une méthode de type R1 basée sur l'apprentissage par renforcement et le réglage fin de l'inférence complexe dans le domaine des graphiques. Contrairement aux méthodes de type R1 existantes, axées sur le raisonnement mathématique et l'intelligence du code, Chart-R1 améliore les capacités d'inférence pour des données multimodales plus générales, notamment les données graphiques. Pour y parvenir, nous proposons une nouvelle technique de synthèse de données programmatique qui génère des données d'inférence graphique étape par étape de haute qualité, contenant des sous-graphiques simples et multiples. Nous développons également une stratégie d'apprentissage en deux étapes : Chart-COT, qui utilise une carte de chaîne de pensée (COT), et Chart-RFT, qui utilise le réglage fin de la sensibilité numérique. Chart-COT décompose les tâches d'inférence complexes en sous-tâches fines, tandis que Chart-RFT met l'accent sur la sensibilité numérique dans le domaine des graphiques en utilisant des récompenses relativement douces pour les réponses numériques. Les résultats expérimentaux montrent que Chart-R1 surpasse les méthodes graphiques existantes et est comparable à des modèles à grande échelle tels que GPT-4o et Claude-3.5.

Takeaways, Limitations

Takeaways:
Application réussie de la méthodologie de type R1 basée sur l'apprentissage par renforcement à des problèmes d'inférence complexes avec des données multimodales, en particulier des données graphiques.
Résoudre le problème de la pénurie de données d’inférence de graphiques grâce à de nouvelles techniques de synthèse de données programmatiques.
Une stratégie d'apprentissage efficace en deux étapes est présentée, qui combine le contrefactuel (COT) et le réglage fin de l'amélioration de la sensibilité numérique (RFT).
A démontré des performances supérieures par rapport aux méthodes existantes et aux modèles à grande échelle.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation et les limites de la technique de synthèse de données proposée.
Il existe un biais potentiel en faveur de certains types de données graphiques. Une évaluation des performances est nécessaire pour différents types de données graphiques.
Des recherches supplémentaires sont nécessaires sur la conception et l’optimisation de la fonction de récompense utilisée.
L’analyse des différences de performance pour des mesures spécifiques est nécessaire lors de la comparaison avec des modèles à grande échelle.
👍