Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Controllable Flow Matching for Online Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Bin Wang, Boxiang Tao, Haifeng Jing, Hongbo Dou, Zijian Wang

개요

CtrlFlow는 환경의 전환 함수를 명시적으로 모델링하지 않고, 초기 상태에서 높은 보상 종착 상태까지의 궤적 분포를 직접 모델링하는 궤적 수준의 합성 방법입니다. 조건부 흐름 매칭(CFM)을 사용하여 모델링 안정성을 유지하고, 비선형 제어 가능성 Gramian 행렬에 의해 결정되는 제어 에너지를 최소화하여 최적의 궤적 샘플링을 보장합니다. 생성된 다양한 궤적 데이터는 정책 학습의 견고성과 교차 작업 일반화를 향상시킵니다.

시사점, 한계점

시사점:
CtrlFlow는 환경 전환 함수를 명시적으로 모델링하지 않고 궤적 분포를 직접 모델링합니다.
조건부 흐름 매칭 (CFM)을 사용하여 궤적을 모델링합니다.
최적 궤적 샘플링을 보장합니다.
정책 학습의 견고성과 교차 작업 일반화를 향상시킵니다.
MuJoCo 벤치마크에서 기존 방법보다 우수한 성능을 보입니다.
한계점:
논문에서 구체적인 한계점은 언급되지 않았습니다. (요약본 기준)
👍