본 논문은 대규모 언어 모델(LLM)의 능력 향상을 위해 외부 도구를 활용하는 방법에 대해 다룬다. 특히 복잡한 작업을 수행하기 위해 실제 세계 시뮬레이션을 통해 도구 사용 데이터를 합성하는 방법을 제안한다. 하지만 연구 결과, 합성 데이터가 증가함에 따라 학습 효과가 크게 감소하고, 복잡한 시나리오에서 고급 도구 사용 능력을 갖추지 못하는 문제점을 발견했다. 이러한 한계는 응답에서 파편 결함(매개변수 오류)으로 나타나는 것을 확인했다. 이를 해결하기 위해, Monte Carlo Tree Search를 이용한 경로 탐색을 통해 합성 데이터의 다양성을 높이고, 세분화된 선호도 쌍을 구성하여 모델의 결함을 반복적으로 파악한 후, 선호도 최적화 알고리즘을 통해 목표 지향적인 개선을 수행하는 반복적 강화 미세 조정 전략을 제시한다. 실험 결과, 제안된 방법은 동일 크기의 기본 모델보다 13.11% 향상된 성능을 달성했으며, 복잡한 시나리오에서는 기준 모델보다 6.5% 향상된 성능을 보였고, 더 큰 오픈소스 및 클로즈드소스 모델보다도 우수한 성능을 보였다.