Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Flow Models for Unbounded and Geometry-Aware Distributional Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Simo Alami C., Rim Kaddah, Jesse Read, Marie-Paule Cani

개요

본 논문은 정규화 흐름(normalizing flows)을 사용하여 수익 분포를 모델링하는 분포 강화 학습(DistRL)을 위한 새로운 아키텍처를 제시합니다. 이 접근 방식은 C51과 같이 고정되거나 제한된 표현에 의존하는 범주형 접근 방식과 달리, 수익 분포에 대해 유연하고 무한한 지지를 가능하게 합니다. 또한, 분위수 기반 접근 방식보다 다중 모드, 비대칭, 꼬리 동작을 포착하는 더 풍부한 모델링 용량을 제공합니다. 본 논문의 방법은 범주형 접근 방식보다 매개변수 효율성이 훨씬 뛰어납니다. 기존 모델을 훈련하는 데 사용되는 KL 발산 또는 Wasserstein 거리와 같은 표준 지표는 특히 수익 지원이 겹치지 않는 경우 척도에 민감하지 않거나 편향된 샘플 기울기를 갖습니다. 이를 해결하기 위해, 본 논문은 기하학적으로 인식 가능하고 수익 분포의 PDF에서 직접 계산할 수 있으며 비용이 많이 드는 CDF 계산을 피하는 Cramér 거리에 대한 새로운 대체 지표를 제안합니다. ATARI-5 하위 벤치마크에서 모델을 테스트한 결과, 본 논문의 접근 방식이 PDF 기반 모델보다 우수한 성능을 보이는 동시에 분위수 기반 방법과 경쟁력을 유지하는 것으로 나타났습니다.

시사점, 한계점

시사점:
정규화 흐름을 사용한 새로운 DistRL 아키텍처 제시: 유연하고 무한한 지지, 다중 모드, 비대칭, 꼬리 동작 포착 가능.
범주형 접근 방식보다 매개변수 효율성이 뛰어남.
기하학적으로 인식 가능하고 계산 비용이 적은 Cramér 거리 대체 지표 제안.
ATARI-5 벤치마크에서 PDF 기반 모델보다 우수한 성능 및 분위수 기반 방법과의 경쟁력 입증.
한계점:
ATARI-5 하위 벤치마크에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요.
제안된 Cramér 거리 대체 지표의 성능과 한계에 대한 더 자세한 분석 필요.
👍