FlowCritic: Bridging Value Estimation with Flow Matching in Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Shan Zhong, Shutong Ding, He Diao, Xiangyu Wang, Kah Chan Teh, Bei Peng
개요
FlowCritic은 강화 학습(RL)에서 가치 함수를 추정하기 위한 새로운 생성적 패러다임을 제안합니다. 기존의 가치 함수 추정 방법론들이 단일 점 추정 또는 단순한 분포 표현에 의존하는 한계를 극복하고자, Flow matching을 활용하여 가치 분포를 모델링하고 샘플을 생성하여 가치 추정을 수행합니다.