# ANO: A Principled Approach to Robust Policy Optimization

### 저자

Yiheng Zhang, Yiming Wang, Kaiyan Zhao, Zhenglin Wan, Jiayu Chen, Leong Hou U

### 💡 개요

본 논문은 강화학습 및 LLM 정렬에서 널리 사용되는 PPO의 '하드 클리핑' 방식이 유용한 기울기를 버리고, SPO와 같은 제약 없는 방법은 불안정성을 야기하는 딜레마를 해결하고자 합니다. 이를 위해 이상치(outlier)를 억제하면서도 부드러운 복원력을 유지하는 강건한 추정치의 원리를 바탕으로, '하드 클리핑'을 대신하는 새로운 경사 하강 기법인 ANO(Anchored Neighborhood Optimization)를 제안합니다. ANO는 다양한 도메인에서 기존 방법론 대비 뛰어난 성능을 보이며, 특히 공격적인 학습률에서도 정책 붕괴를 방지하고 LLM 정렬에서 KL 발산을 효과적으로 제어합니다.

### 🔑 시사점 및 한계

- ANO는 이상치에 강건하면서도 부드러운 복원력을 제공하는 새로운 정책 최적화 프레임워크를 제시합니다.

- 기존 PPO의 한계를 극복하고, 강화학습 및 LLM 정렬 분야에서 보다 안정적이고 성능이 우수한 최첨단 결과를 달성했습니다.

- 제안된 ANO 방법이 다양한 환경에서 실험적으로 입증되었지만, 실제 적용 시 추가적인 파라미터 튜닝이나 복잡한 환경에 대한 일반화 성능에 대한 추가적인 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.02320)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).