GTM: Simulating the World of Tools for AI Agents

Created by

Haebom

저자

Zhenzhen Ren, Xinpeng Zhang, Zhenxing Qian, Yan Gao, Yu Shi, Shuxin Zheng, Jiyan He

개요

본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구를 활용하는 데 따르는 높은 비용, 속도 저하, 개발 및 유지 보수 부담 문제를 해결하기 위해, 범용 도구 시뮬레이터 역할을 하는 15억 개의 매개변수를 가진 Generalist Tool Model (GTM)을 제안합니다. GTM은 프롬프트 수준의 설정만으로 도구 기능에 접근하여 입력 인수를 받아 실제 도구 실행을 충실히 모방하는 출력을 생성하여 빠르고 비용 효율적인 솔루션을 제공하며 개발 부담을 줄입니다. GTM 구축을 위해, 물리학, 의학, 로봇 공학, 금융 등 300개 도메인에서 20,000개 이상의 도구를 포괄하는 종합적인 훈련 데이터를 합성하는 Context-Aware Response Generation (CARG) 파이프라인을 제안합니다. GTM은 구문적으로 올바른 출력뿐만 아니라 논리적으로 일관되고 상황에 적절한 응답을 생성하도록 학습됩니다. 실험 결과, GTM은 강력한 일관성과 신뢰성을 갖춘 고품질 출력을 생성하며, 실제 강화 학습 시나리오에서 에이전트 훈련에 사용될 때 실제 도구에 비해 훨씬 빠른 시뮬레이션 속도와 비교 가능한 출력 품질을 보여줍니다. 또한 뛰어난 일반화 및 도메인 적응성을 나타냅니다.

시사점, 한계점

•

시사점:

◦

LLM 에이전트 훈련의 비용, 속도, 개발 부담 문제를 해결하는 효율적인 도구 시뮬레이터 제시.

◦

다양한 도메인과 도구를 포괄하는 대규모 훈련 데이터 구축 방법론(CARG 파이프라인) 제시.

◦

빠르고 신뢰할 수 있는 도구 시뮬레이션을 통해 효율적인 에이전트 훈련 가능성 제시.

◦

높은 일반화 능력과 도메인 적응성 입증.

◦

미래 AI 에이전트 개발을 위한 기반 기술 제공.

•

한계점:

◦

15억 개의 매개변수를 가진 모델의 계산 비용.

◦

CARG 파이프라인을 통한 훈련 데이터 생성의 품질 의존성.

◦

실제 도구의 모든 기능을 완벽하게 모방하지 못할 가능성.

◦

특정 도메인 또는 도구에 대한 성능 편향 가능성.

PDF 보기

Made with Slashpage