Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow

Created by
  • Haebom
Category
Empty

저자

Zeyuan Wang, Da Li, Yulin Chen, Ye Shi, Liang Bai, Tianyuan Yu, Yanwei Fu

개요

오프라인 강화 학습을 위한 새로운 정책을 제안하며, MeanFlow를 재구성하여 잡음을 직접 행동으로 매핑하는 단일 단계 생성 정책을 도입합니다. 이 방법은 Q-러닝과 호환되며, 복잡하고 다중 모드 행동 분포를 모델링할 수 있습니다. 기존의 플로우 기반 방법의 한계를 극복하기 위해, 속도장과 잡음-행동 변환을 단일 정책 네트워크에 통합하여 속도 추정의 필요성을 없앴습니다. 재구성 변형을 탐구하고 효과적인 잔차 구성을 찾아, 표현력 있고 안정적인 정책 학습을 지원합니다. 이 방법은 효율적인 단일 단계 잡음-행동 생성, 다중 모드 행동 분포의 표현적 모델링, 그리고 단일 단계 훈련 설정에서 Q-러닝을 통한 효율적이고 안정적인 정책 학습이라는 세 가지 주요 이점을 제공합니다. OGBench 및 D4RL 벤치마크의 73개 작업에 대한 광범위한 실험을 통해 오프라인 및 오프라인-온라인 강화 학습 설정 모두에서 강력한 성능을 달성함을 입증했습니다.

시사점, 한계점

시사점:
효율적인 단일 단계 잡음-행동 생성.
다중 모드 행동 분포의 표현적 모델링.
단일 단계 훈련 설정을 통한 효율적이고 안정적인 정책 학습.
오프라인 및 오프라인-온라인 강화 학습 설정 모두에서 강력한 성능.
한계점:
논문에 구체적인 한계점 정보는 제시되지 않음.
👍