Sign In

Agent models: Internalizing Chain-of-Action Generation into Reasoning models

Created by
  • Haebom
Category
Empty

저자

Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang

개요

본 논문은 외부 프롬프트에 의존하는 기존 에이전트 워크플로우의 한계를 극복하기 위해, Large Agent Models (LAMs)과 Chain-of-Action (CoA) 내부 생성을 제안합니다. AutoCoA 프레임워크는 감독 학습 미세 조정(SFT)과 강화 학습(RL)을 결합하여 모델이 추론과 행동 간을 원활하게 전환하고 환경 상호 작용을 효율적으로 관리할 수 있도록 합니다. 주요 구성 요소는 단계별 행동 트리거링, 궤적 수준 CoA 최적화, 그리고 실제 환경 상호 작용 비용을 줄이기 위한 내부 세계 모델입니다. 오픈 도메인 QA 작업에 대한 평가 결과, AutoCoA로 훈련된 에이전트 모델은 특히 장기 추론 및 다단계 행동이 필요한 작업에서 ReAct 기반 워크플로우보다 작업 완료 성능이 훨씬 뛰어남을 보여줍니다. 코드와 데이터셋은 https://github.com/ADaM-BJTU/AutoCoA 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
외부 프롬프트 의존성을 줄이고 모델의 자율성을 높이는 새로운 에이전트 워크플로우 제시
SFT와 RL을 결합하여 추론과 행동 간의 원활한 전환 및 효율적인 환경 상호작용 관리 가능
장기 추론 및 다단계 행동이 필요한 작업에서 기존 방식 대비 성능 향상 확인
오픈소스 코드 및 데이터셋 공개를 통한 연구 재현성 및 확장성 확보
한계점:
AutoCoA 프레임워크의 일반화 성능 및 다양한 작업에 대한 적용 가능성에 대한 추가적인 연구 필요
내부 세계 모델의 정확성 및 효율성 개선 여지 존재
특정 작업(오픈 도메인 QA)에 대한 평가 결과만 제시, 다른 작업 도메인으로의 확장성 검증 필요
RL 학습 과정의 안정성 및 효율성 향상 필요
👍