도구-증강 대규모 언어 모델(LLM)이 복잡한 쿼리를 처리할 때 발생하는 문제점을 해결하기 위해, ReAct와 같은 기존 프레임워크의 국소적 최적화 함정을 해결하는 새로운 Planner 중심 Plan-Execute 패러다임을 제안합니다. 이 패러다임은 글로벌 Directed Acyclic Graph (DAG) 계획을 수행하는 Planner 모델을 활용하여 최적화된 실행을 가능하게 합니다. 복잡한 멀티 도구 구성 및 조정을 요구하는 ComplexTool-Plan 벤치마크 데이터셋을 도입하고, Supervised Fine-Tuning (SFT)과 Group Relative Policy Optimization (GRPO)을 결합한 2단계 훈련 방식을 통해 Planner의 도구 선택 정확도와 글로벌 계획 인식을 향상시켰습니다. 제안된 프레임워크는 StableToolBench 벤치마크에서 뛰어난 성능을 보이며 복잡한 사용자 쿼리에 대한 end-to-end 실행 능력과 정교한 멀티 도구 워크플로우를 처리하는 능력을 입증했습니다.
시사점, 한계점
•
시사점:
◦
국소적 최적화 문제를 해결하기 위한 아키텍처 혁신: 글로벌 DAG 계획을 통해 기존 방법론의 한계를 극복.
◦
복잡한 쿼리에 대한 향상된 성능: ComplexTool-Plan 벤치마크 및 StableToolBench에서 SOTA 달성.
◦
향상된 Planner 모델: 도구 선택 정확도와 글로벌 계획 인식을 높이는 2단계 훈련 방식.