Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

작성자

Haebom

카테고리

Empty

저자

Qifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang

💡 개요

본 논문은 기존 보상 기반의 인공지능 에이전트가 인간의 지시에 의존하는 한계를 극복하고자, 외부 보상 없이도 스스로 학습하고 발전하는 '자생적 메타 진화' 능력을 갖춘 에이전트 훈련 방법을 제안합니다. 이 방법론은 에이전트가 생성한 '세계 지식'이 하류 작업의 성공률을 얼마나 향상시키는지를 측정하는 결과 기반 보상 메커니즘을 훈련 단계에만 사용하여, 에이전트가 탐색 및 요약 능력을 내재화하도록 합니다. 이를 통해 Qwen3-30B 및 Seed-OSS-36B 모델에서 20%의 성능 향상을 달성했으며, 심지어 14B Qwen3 모델이 Gemini-2.5-Flash를 능가하는 새로운 패러다임을 제시했습니다.

🔑 시사점 및 한계

•

진정한 자율 에이전트의 가능성 제시: 외부 지시나 보상 없이도 스스로 학습하고 환경에 적응하는 에이전트의 개발 가능성을 보여주었습니다.

•

월드 노리지 기반 진화의 효율성 입증: 에이전트가 습득한 세계 지식이 단순히 정보 축적을 넘어 실제 문제 해결 능력 향상으로 이어짐을 효과적으로 입증했습니다.

•

계산 복잡성 및 일반화 성능: 자생적 진화 과정의 계산적 복잡성과 다양한 환경 및 작업에 대한 일반화 성능을 더욱 심도 있게 탐구할 필요가 있습니다.

PDF 보기

Made with Slashpage