Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent

작성자

Haebom

카테고리

Empty

저자

Zeyuan Wang, Da Li, Yulin Chen, Yuehu Gong, Yanming Guo, Ye Shi, Liang Bai, Tianyuan Yu, Yanwei Fu

💡 개요

본 논문은 온라인 오프폴리시 강화학습에서 발생하는 정책 클래스와 업데이트 규칙 간의 연관성을 다룬다. 기존의 가우시안 정책은 다중 모드 행동 분포 표현에 어려움을 겪고, 생성 정책은 반복 샘플링이나 다루기 어려운 엔트로피 추정 문제를 가지는 반면, 본 연구에서는 가우시안 노이즈를 MeanFlow 변환을 통해 행동으로 매핑하는 'Stochastic MeanFlow Policies(SMFP)'라는 새로운 단일 스텝 생성 정책 클래스를 제안한다. SMFP는 다루기 쉬운 엔트로피 대리값을 제공하며, 탐험적이면서도 안정적인 정책 개선을 위한 통합된 목표 하에서 오프폴리시 미러 하강(mirror descent)으로 훈련될 수 있다.

🔑 시사점 및 한계

•

탐험과 안정성의 균형: 엔트로피 정규화와 미러 하강 제약을 결합하여 탐험을 장려하면서도 정책 개선 과정을 안정화시키는 새로운 접근 방식을 제시한다.

•

효율적인 생성 정책: 단일 스텝 추론 효율성을 유지하면서도 기존 가우시안 정책 및 다른 생성 정책 기반 방법론 대비 우수한 성능을 MuJoCo 벤치마크에서 입증했다.

•

다중 모드 분포 표현 개선: MeanFlow 변환을 통해 다중 모드 행동 분포를 효과적으로 표현할 수 있는 생성 정책 클래스의 가능성을 보여준다.

•

엔트로피 대리값의 정확성: 제안된 엔트로피 대리값이 실제 엔트로피와 얼마나 근접하며, 이로 인한 성능 저하나 과최적화 가능성에 대한 추가적인 연구가 필요할 수 있다.

PDF 보기

Made with Slashpage