# EXPO: Stable Reinforcement Learning with Expressive Policies

### 저자

Perry Dong, Qiyang Li, Dorsa Sadigh, Chelsea Finn

### 💡 개요

본 논문은 온라인 강화학습 환경에서 표현력 높은 정책(expressive policies)을 안정적으로 학습시키는 문제를 다룹니다. 복잡한 정책 구조로 인한 기울기 불안정성 문제를 해결하기 위해, 직접적인 가치 기반 최적화를 회피하고 즉석에서 생성되는 정책을 활용하여 Q-값을 최대화하는 Expressive Policy Optimization (EXPO) 방법을 제안합니다. EXPO는 안정적인 모방 학습으로 사전 학습된 대규모 정책과, 이를 편집하여 가치를 높이는 경량화된 정책을 결합하여 샘플 효율성을 크게 향상시킵니다.

### 🔑 시사점 및 한계

- 복잡한 정책 구조를 가진 강화학습 문제에서 안정적인 학습을 위한 새로운 최적화 프레임워크를 제시합니다.

- 사전 학습된 정책과 편집 정책의 결합을 통해 샘플 효율성을 획기적으로 개선하며, 기존 방법 대비 2-3배의 성능 향상을 보입니다.

- 제안된 방법론은 대규모 언어 모델이나 이미지 생성 모델과 같은 표현력 높은 정책을 온라인 강화학습에 효과적으로 적용할 수 있는 가능성을 열어줍니다.

- (한계점 또는 향후 과제) 다양한 복잡성을 가진 정책 클래스에 대한 적용 가능성과 이론적 안정성 분석에 대한 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2507.07986)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).