Sign In

PORTool: Tool-Use LLM Training with Rewarded Tree

Created by
  • Haebom
Category
Empty

저자

Feijie Wu, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rodin Luo, Jing Gao

개요

도구 사용 LLM은 정적 데이터셋으로 훈련되어 외부 도구와 상호 작용하고 다단계, 도구 통합 추론을 수행하지만, 일반적인 도구 호출 루틴에서 쿼리가 해결되는 방식을 모방하여 다양한 솔루션을 탐색하지 못한다. 본 연구에서는 강화 학습(RL) 방법인 PORTool을 제안하여, 도구 사용 LLM이 정답을 얻는 다양한 궤적을 탐색하도록 장려한다. PORTool은 여러 롤아웃을 생성하고, 각 단계에 보상을 할당하며, 단계별 보상을 사용하여 LLM을 훈련한다. 17개의 도구를 사용하여 시간 민감 및 불변 주제를 다루는 사용자 쿼리를 해결하며, PORTool은 정확도 및 도구 호출 단계 수에서 다른 훈련 방식보다 유의미한 개선을 보였다.

시사점, 한계점

시사점:
강화 학습을 활용하여 도구 사용 LLM의 탐색 능력을 향상시켰다.
단계별 보상 및 궤적 기반의 장점을 결합하여 훈련 효율성을 높였다.
다양한 도구를 사용하여 실제 환경에서의 성능을 검증했다.
정확도와 도구 호출 단계 수에서 기존 방법론 대비 유의미한 성능 향상을 보였다.
한계점:
RL 방법의 복잡성으로 인해 훈련 시간 및 자원 소모가 클 수 있다.
17개의 도구에 대한 실험 결과가 모든 도구 환경에 일반화될 수 있는지 추가적인 검증이 필요하다.
구체적인 보상 설계 방식에 대한 더 깊이 있는 분석이 필요하다.
👍