Agentic tool 사용이 에이전트 기반 도구 호출의 증가와 함께 주목받고 있지만, 대부분의 기존 연구는 다중 턴 도구 상호 작용의 복잡성을 간과하고 있습니다. 우리는 도구 실행을 제어 가능한 복잡성을 가진 방향성 비순환 그래프(DAG)로 모델링하는 합성 데이터 생성 파이프라인인 OrchDAG를 소개합니다. 이 데이터 세트를 사용하여 모델 성능을 벤치마킹하고, RLVR 훈련을 향상시키기 위한 그래프 기반 보상을 제안합니다. 실험 결과, 이 데이터 세트가 어렵지만 해결 가능한 벤치마크를 제시하며, 제안된 보상이 GRPO 스타일 알고리즘과 결합될 때 효과적임을 보여줍니다. 이는 다중 턴 도구 사용에서 위상 구조와 데이터 복잡성을 활용하는 것이 중요하다는 점을 강조합니다.