GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Jiaqi Wu, Qinlao Zhao, Zefeng Chen, Kai Qin, Yifei Zhao, Xueqian Wang, Yuhang Yao

개요

대규모 언어 모델(LLM) 기반 자율 에이전트는 복잡한 작업 해결을 위한 도구 조작에서 인상적인 능력을 보여주었습니다. 그러나 ReAct와 같은 기존 패러다임은 순차적 추론과 실행에 의존하여 독립적인 하위 작업 간의 내재적 병렬성을 활용하지 못합니다. 이러한 순차적 병목 현상은 비효율적인 도구 사용 및 다단계 추론 시나리오에서 최적화되지 않은 성능으로 이어집니다. 본 논문에서는 그래프 기반 계획을 통해 작업 간 종속성을 명시적으로 모델링하여 적응형 병렬 및 직렬 도구 실행을 가능하게 하는 새로운 프레임워크인 Graph-based Agent Planning (GAP)을 소개합니다. GAP는 에이전트 파운데이션 모델을 훈련하여 복잡한 작업을 종속성 인식 하위 작업 그래프로 분해하고, 병렬로 실행할 수 있는 도구와 순차적 종속성을 따라야 하는 도구를 자율적으로 결정합니다. 이러한 종속성 인식 오케스트레이션은 실행 효율성과 작업 정확도 모두에서 상당한 개선을 이룹니다. GAP를 훈련하기 위해 Multi-Hop Question Answering (MHQA) 벤치마크에서 파생된 그래프 기반 계획 추적의 고품질 데이터 세트를 구축했습니다. 또한, 본 연구에서는 큐레이팅된 데이터 세트에 대한 지도 학습 미세 조정(SFT)과 도구 기반 추론이 최대 가치를 제공하는 전략적으로 샘플링된 쿼리에 대한 정확성 기반 보상 함수를 사용한 강화 학습(RL)의 2단계 훈련 전략을 사용합니다. MHQA 데이터 세트에 대한 실험 결과는 GAP가 특히 다단계 검색 작업에서 기존 ReAct 기반을 크게 능가하며, 지능형 병렬화를 통해 도구 호출 효율성에서 획기적인 개선을 달성함을 보여줍니다.

시사점, 한계점

•

시사점:

◦

GAP는 그래프 기반 계획을 통해 도구 실행의 병렬성을 활용하여 작업 효율성과 정확도를 향상시킵니다.

◦

MHQA 벤치마크에서 기존 방법론(ReAct) 대비 뛰어난 성능을 보입니다.

◦

도구 호출 효율성을 향상시킵니다.

◦

두 단계 훈련 전략(SFT 및 RL)을 통해 효율적인 훈련을 수행합니다.

•

한계점:

◦

논문에서 구체적인 한계점에 대한 언급은 없음.

PDF 보기

Made with Slashpage