# AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

### 저자

Yuzhu Cai, Zexi Liu, Xinyu Zhu, Cheng Wang, Yanfeng Wang, Siheng Chen

### 💡 개요

본 연구는 지속적이고 반복적인 최적화가 요구되는 자율 머신러닝 엔지니어링(MLE)의 문제를 해결하기 위해 AceGRPO라는 새로운 방법을 제안합니다. AceGRPO는 학습 효율성을 극대화하기 위해 재사용 가능한 학습 태스크를 동적으로 생성하고, 학습 최전선에 있는 태스크를 우선시하는 적응형 샘플링을 특징으로 합니다. 이를 통해 제안된 Ace-30B 모델은 MLE-Bench-Lite에서 100%의 유효 제출률을 달성하고, 독점적인 최첨단 모델에 근접하며, 더 큰 오픈소스 모델들을 능가하는 성능을 보였습니다.

### 🔑 시사점 및 한계

- LLM 기반 에이전트의 행동 정체 문제를 극복하기 위한 강화학습 적용의 가능성을 보여줍니다.

- 효율적인 데이터 활용 및 학습 최전선 우선순위 지정을 통해 MLE 태스크에서 강화학습의 실질적인 적용 가능성을 제시합니다.

- 제안된 방법론이 다른 자율 MLE 벤치마크 또는 더 복잡한 시나리오에서 얼마나 잘 일반화될 수 있는지에 대한 추가적인 검증이 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2602.07906)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).