본 논문은 에이전트가 자율적으로 추론 및 행동을 개선하는 자기 진화 능력을 갖도록 설계된 최초의 강화 학습 미세 조정(RFT) 프레임워크인 Self-Evolving Embodied Agents-R1 (SEEA-R1)을 제시합니다. SEEA-R1은 (i) 다단계 추론 작업에서 접근 가능한 중간 보상의 부족 문제를 해결하기 위해 Monte Carlo Tree Search를 GRPO에 통합한 Tree-based group relative policy optimization (Tree-GRPO)을 제안하고, (ii) 새로운 작업 및 환경으로의 일반화를 제한하는 수작업 보상 함수의 의존성을 극복하기 위해 Multi-modal Generative Reward Model (MGRM)을 도입합니다. ALFWorld 벤치마크에서 SEEA-R1은 85.07% (텍스트) 및 46.27% (멀티 모달) 점수를 기록하여 GPT-4o를 포함한 최첨단 모델을 능가했으며, 지상 진실 보상 없이도 80.3% (텍스트) 및 44.03% (멀티 모달) 점수를 달성하여 오픈 소스 기준선을 능가하며 확장성을 입증했습니다.