도구 사용 LLM은 정적 데이터셋으로 훈련되어 외부 도구와 상호 작용하고 다단계, 도구 통합 추론을 수행하지만, 일반적인 도구 호출 루틴에서 쿼리가 해결되는 방식을 모방하여 다양한 솔루션을 탐색하지 못한다. 본 연구에서는 강화 학습(RL) 방법인 PORTool을 제안하여, 도구 사용 LLM이 정답을 얻는 다양한 궤적을 탐색하도록 장려한다. PORTool은 여러 롤아웃을 생성하고, 각 단계에 보상을 할당하며, 단계별 보상을 사용하여 LLM을 훈련한다. 17개의 도구를 사용하여 시간 민감 및 불변 주제를 다루는 사용자 쿼리를 해결하며, PORTool은 정확도 및 도구 호출 단계 수에서 다른 훈련 방식보다 유의미한 개선을 보였다.