Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agent-as-Tool: A Study on the Hierarchical Decision Making with Reinforcement Learning

Created by
  • Haebom

저자

Yanfei Zhang

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트와 강화 학습 기반 추론 모델의 발전에 따라 강화 학습을 에이전트 프레임워크에 적용하는 연구가 새로운 연구 주제로 떠오르고 있음을 배경으로 합니다. 기존 연구들은 도구 호출 과정과 추론 과정을 동시에 결정해야 하는 어려움과, 도구로부터 얻은 원시 결과의 중복 정보 및 과제와 무관한 기호들에 의존하는 추론 체인으로 인해 모델의 추론 능력에 큰 부담을 안고 있었습니다. 이를 해결하기 위해 본 논문에서는 도구 호출 과정과 추론 과정을 분리하는 계층적 프레임워크인 Agent-as-tool을 제안합니다. 이는 모델이 언어적 추론 과정에 집중할 수 있도록 도구 호출 과정을 다른 에이전트가 처리하도록 합니다. 제안된 방법은 180개의 샘플에 대한 약간의 강화 학습 미세 조정만으로 기존 연구와 비슷한 결과를 달성했으며, Bamboogle에서 정확도 일치율 63.2%, 부분 일치율 75.2%를 달성하여 Search-R1보다 정확도 일치율 4.8%, 부분 일치율 3.2% 향상된 성능을 보였습니다.

시사점, 한계점

시사점:
도구 호출 과정과 추론 과정을 분리하는 계층적 프레임워크가 LLM 기반 에이전트의 추론 성능 향상에 효과적임을 보여줌.
소량의 데이터로도 우수한 성능을 달성할 수 있음을 시사.
Bamboogle과 같은 복잡한 과제에서 기존 방법보다 우수한 성능을 달성.
한계점:
제안된 프레임워크의 일반화 성능에 대한 추가적인 연구 필요.
다양한 도구 및 과제에 대한 적용성 평가 필요.
180개의 샘플이라는 제한된 데이터셋으로 학습되었으므로, 더욱 대규모 데이터셋을 이용한 실험이 필요.
👍