Agent models: Internalizing Chain-of-Action Generation into Reasoning models
Created by
Haebom
Category
Empty
저자
Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
개요
본 논문은 외부 프롬프트에 의존하는 기존 에이전트 워크플로우의 한계를 극복하기 위해, Large Agent Models (LAMs)과 Chain-of-Action (CoA) 내부 생성을 제안합니다. AutoCoA 프레임워크는 감독 학습 미세 조정(SFT)과 강화 학습(RL)을 결합하여 모델이 추론과 행동 간을 원활하게 전환하고 환경 상호 작용을 효율적으로 관리할 수 있도록 합니다. 주요 구성 요소는 단계별 행동 트리거링, 궤적 수준 CoA 최적화, 그리고 실제 환경 상호 작용 비용을 줄이기 위한 내부 세계 모델입니다. 오픈 도메인 QA 작업에 대한 평가 결과, AutoCoA로 훈련된 에이전트 모델은 특히 장기 추론 및 다단계 행동이 필요한 작업에서 ReAct 기반 워크플로우보다 작업 완료 성능이 훨씬 뛰어남을 보여줍니다. 코드와 데이터셋은 https://github.com/ADaM-BJTU/AutoCoA 에서 확인할 수 있습니다.