Cet article présente le modèle Chart-R1, qui applique une méthode de type R1 basée sur l'apprentissage par renforcement et le réglage fin de l'inférence complexe dans le domaine des graphiques. Contrairement aux méthodes de type R1 existantes, axées sur le raisonnement mathématique et l'intelligence du code, Chart-R1 améliore les capacités d'inférence pour des données multimodales plus générales, notamment les données graphiques. Pour y parvenir, nous proposons une nouvelle technique de synthèse de données programmatique qui génère des données d'inférence graphique étape par étape de haute qualité, contenant des sous-graphiques simples et multiples. Nous développons également une stratégie d'apprentissage en deux étapes : Chart-COT, qui utilise une carte de chaîne de pensée (COT), et Chart-RFT, qui utilise le réglage fin de la sensibilité numérique. Chart-COT décompose les tâches d'inférence complexes en sous-tâches fines, tandis que Chart-RFT met l'accent sur la sensibilité numérique dans le domaine des graphiques en utilisant des récompenses relativement douces pour les réponses numériques. Les résultats expérimentaux montrent que Chart-R1 surpasse les méthodes graphiques existantes et est comparable à des modèles à grande échelle tels que GPT-4o et Claude-3.5.