본 논문은 도구 기반 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 프레임워크인 ToolPrefer-LLaMA (TP-LLaMA)를 제안합니다. 기존 ToolLLaMA 모델이 의사결정 트리의 성공적인 경로만 사용하는 것과 달리, TP-LLaMA는 실패한 경로까지 활용하여 선호도 학습 기반의 추론 경로 최적화를 수행합니다. 이는 의사결정 트리에서 추출한 단계별 선호도 데이터를 생성하고, 성공적인 경로로 LLM을 미세 조정한 후, Direct Preference Optimization (DPO)을 통해 정책을 업데이트하는 방식으로 이루어집니다. 실험 결과, TP-LLaMA는 기존 모델들보다 대부분의 시나리오에서 성능이 뛰어나고, 미지의 API에 대한 일반화 능력과 추론 효율성도 향상됨을 보였습니다.