# ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

### 저자

Chengcao Yang

### 💡 개요

본 논문은 고정된 문제 세트 대신 질문을 생성하고, 생성된 문제를 스스로 해결하며, 검증기의 피드백을 통해 개선하는 'ANCORA'라는 새로운 자기 플레이 학습 패러다임을 제안한다. ANCORA는 제안자(Proposer)와 해결자(Solver)로 구성된 통합 정책을 사용하여 검증 가능한 문제를 생성하고 해결하는 과정을 반복하며, 이를 통해 인간이 주석을 단 해답 없이도 학습이 가능하다. 세 가지 핵심 메커니즘(그룹 상대적 업데이트, 반복적 자기 증류 SFT, UCB 기반 커리큘럼 DAG)을 통해 ANCORA는 0개의 인간 솔루션에서 시작하여 검증 가능한 커리큘럼을 구축한다.

### 🔑 시사점 및 한계

- 인간의 개입 없이도 검증 가능한 문제 생성 및 해결 능력을 학습할 수 있는 새로운 자기 플레이 방식 제시.

- Dafny2Verus에서 SFT 기반 26.6%에서 81.5%로 성능을 크게 향상시키고, MBPP 및 HumanEval에서도 전이 학습 능력을 보여줌.

- 초기 단계의 희소한 검증기 피드백으로 인한 제안자 붕괴 문제를 해결하는 안정화 메커니즘의 중요성 입증.

- ANCORA의 성능은 'Test-time Training' (TTT)이라는 특정 환경에서의 결과이며, 실제 적용을 위해서는 더 다양한 시나리오와 문제 도메인에서의 검증 및 일반화 능력에 대한 추가 연구가 필요.

[PDF 보기](https://arxiv.org/pdf/2604.27644)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
