Toward Training Superintelligent Software Agents through Self-Play SWE-RL

작성자

Haebom

카테고리

Empty

저자

Yuxiang Wei, Zhiqing Sun, Emily McMilin, Jonas Gehring, David Zhang, Gabriel Synnaeve, Daniel Fried, Lingming Zhang, Sida Wang

💡 개요

본 논문은 인간의 지식이나 큐레이션에 의존하는 기존 소프트웨어 에이전트 학습의 한계를 극복하기 위해 'Self-play SWE-RL (SSR)'이라는 새로운 학습 패러다임을 제안합니다. SSR은 최소한의 데이터 가정(샌드박스 환경의 소스 코드 및 의존성)만을 요구하며, 인간이 레이블링한 이슈나 테스트 없이도 복잡한 버그를 삽입하고 수정하는 방식으로 에이전트를 강화 학습시킵니다. 이를 통해 인간 데이터 기반 베이스라인을 능가하는 자기 개선 능력과 성능을 보여주며, 초지능 소프트웨어 에이전트 개발의 가능성을 제시합니다.

🔑 시사점 및 한계

•

기존의 인간 의존적인 학습 방식에서 벗어나, 에이전트가 스스로 실제 코드베이스에서 학습 경험을 축적하는 새로운 경로를 제시합니다.

•

복잡한 소프트웨어 버그를 자연어 설명 대신 테스트 패치로 명확하게 정의함으로써, 에이전트가 더 깊이 있는 이해와 문제 해결 능력을 갖도록 유도할 수 있습니다.

•

아직 초기 연구 단계이며, 제안된 방법론의 장기적인 확장성 및 다양한 시나리오에서의 적용 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage