DualDistill이라는 새로운 파인튜닝 프레임워크를 소개한다. 이 프레임워크는 여러 교사 모델로부터 상호 보완적인 추론 전략을 증류하여 통합된 학생 모델을 생성한다. 특히, 수학적 추론에 뛰어난 장점을 가진 장기 사고 과정(long-CoT) 모델과 코드 실행을 통해 산술 연산을 처리하는 도구 지원 에이전트의 장점을 결합한다. Agentic-R1이라는 모델은 각 질의에 대해 최적의 전략(도구 사용 또는 텍스트 기반 추론)을 동적으로 선택하여 계산 집약적인 문제와 표준 벤치마크 모두에서 정확도를 향상시킨다.