Sign In

SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents

Created by
  • Haebom
Category
Empty

저자

Wanxin Tian, Shijie Zhang, Kevin Zhang, Xiaowei Chi, Chunkai Fan, Junyu Lu, Yulin Luo, Qiang Zhou, Yiming Zhao, Ning Liu, Siyu Lin, Zhiyuan Qin, Xiaozhu Ju, Shanghang Zhang, Jian Tang

개요

본 논문은 에이전트가 자율적으로 추론 및 행동을 개선하는 자기 진화 능력을 갖도록 설계된 최초의 강화 학습 미세 조정(RFT) 프레임워크인 Self-Evolving Embodied Agents-R1 (SEEA-R1)을 제시합니다. SEEA-R1은 (i) 다단계 추론 작업에서 접근 가능한 중간 보상의 부족 문제를 해결하기 위해 Monte Carlo Tree Search를 GRPO에 통합한 Tree-based group relative policy optimization (Tree-GRPO)을 제안하고, (ii) 새로운 작업 및 환경으로의 일반화를 제한하는 수작업 보상 함수의 의존성을 극복하기 위해 Multi-modal Generative Reward Model (MGRM)을 도입합니다. ALFWorld 벤치마크에서 SEEA-R1은 85.07% (텍스트) 및 46.27% (멀티 모달) 점수를 기록하여 GPT-4o를 포함한 최첨단 모델을 능가했으며, 지상 진실 보상 없이도 80.3% (텍스트) 및 44.03% (멀티 모달) 점수를 달성하여 오픈 소스 기준선을 능가하며 확장성을 입증했습니다.

시사점, 한계점

시사점:
자기 진화 능력을 갖춘 구체화된 에이전트를 위한 RFT 프레임워크 제시.
희소한 지연 보상을 밀집된 중간 신호로 변환하기 위한 Tree-GRPO 제안.
작업 및 장면 전반의 보상 추정을 일반화하기 위한 MGRM 도입.
ALFWorld 벤치마크에서 SOTA 달성 및 GPT-4o 성능 능가.
지상 진실 보상 없이도 강력한 성능을 보여 자율 적응 및 확장성 입증.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍