본 논문은 대규모 언어 모델(LLM)의 도구 통합 추론(TIR) 능력 향상을 위한 최적 도구 호출 제어 정책 최적화(OTC-PO) 프레임워크를 제안합니다. 기존의 강화 학습 기반 접근 방식이 최종 정확도에만 초점을 맞춰 과도한 도구 호출을 야기하는 문제점을 해결하기 위해, OTC-PO는 답변 정확도와 도구 사용 행동을 모두 고려하는 도구 통합 보상을 도입합니다. Proximal Policy Optimization (PPO)와 Group Relative Preference Optimization (GRPO)에 OTC-PO를 적용한 OTC-PPO와 OTC-GRPO를 제시하고, 도구 생산성(정답 개수/총 도구 호출 수) 지표를 통해 효율성을 평가합니다. Qwen-2.5와 Qwen-Math를 사용한 실험 결과, 도구 호출을 최대 68.3% 감소시키고 도구 생산성을 최대 215.4% 향상시키면서 정확도는 유지하는 것을 확인했습니다.
시사점, 한계점
•
시사점:
◦
과도한 도구 사용으로 인한 계산 비용 증가 및 내부 추론 능력 저하 문제 해결에 기여.
◦
도구 생산성이라는 새로운 평가 지표를 제시하여 도구 사용 효율성을 측정.
◦
OTC-PO 프레임워크를 통해 LLM의 도구 통합 추론 능력을 향상시켜 더욱 효율적이고 자율적인 추론 가능.
◦
PPO와 GRPO 모두에서 효과적으로 작동하는 것을 실험적으로 증명.
•
한계점:
◦
제시된 도구 생산성 지표가 모든 상황에 적용 가능한 보편적인 지표인지에 대한 추가 연구 필요.
◦
특정 LLM과 QA 벤치마크에 대한 실험 결과이므로 다른 모델 및 작업에 대한 일반화 가능성 검증 필요.