Jifeng Hu, Sili Huang, Siyuan Guo, Zhaogeng Liu, Li Shen, Lichao Sun, Hechang Chen, Yi Chang, Dacheng Tao
개요
본 논문은 강화학습에 흐름 기반 생성 모델을 적용하여 연속적인 행동 공간에서 복잡한 다중 모드 행동 분포를 효과적으로 모델링하고 로봇 제어 성능을 향상시키는 새로운 프레임워크인 Decision Flow를 제안합니다. 기존 방법들은 생성 모델을 행동 모델로 사용하여 데이터셋으로부터 상태 조건부 행동 분포를 적합시키고, 별도의 정책을 통해 정책 최적화를 수행하는데, 이러한 분리는 다중 모드 분포 적합 및 정책 개선의 동시 최적화를 방해하여 모델 학습과 성능을 저하시킵니다. Decision Flow는 흐름 기반 모델의 행동 생성 과정을 각 행동 생성 단계가 하나의 흐름 의사결정에 해당하는 흐름 의사결정 과정으로 공식화하여 다중 모드 행동 분포를 포착하면서 흐름 정책을 매끄럽게 최적화합니다. 수십 개의 오프라인 강화학습 환경에서의 광범위한 실험을 통해 Decision Flow의 효과를 검증하였으며, 기존 방법들보다 우수하거나 동등한 성능을 달성함을 보였습니다.
시사점, 한계점
•
시사점:
◦
흐름 기반 생성 모델을 활용하여 연속 행동 공간에서 다중 모드 행동 분포를 효과적으로 모델링하는 새로운 방법 제시.