Nous présentons un nouveau cadre de réglage fin appelé DualDistill. Ce cadre distille des stratégies d'inférence complémentaires issues de plusieurs modèles d'enseignants pour produire un modèle d'élève intégré. Plus précisément, il combine les atouts des modèles de processus de réflexion à long terme (Long-CoT), qui excellent en raisonnement mathématique, avec ceux des agents assistés par outils, qui gèrent les opérations arithmétiques par l'exécution de code. Le modèle Agentic-R1 sélectionne dynamiquement la stratégie optimale (raisonnement basé sur des outils ou sur du texte) pour chaque requête, améliorant ainsi la précision des problèmes exigeants en calcul et des tests de performance standard.