Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Distributional Reinforcement Learning with Dual Expectile-Quantile Regression

Created by
  • Haebom

저자

Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth, Maarten de Rijke

개요

본 논문은 분포 강화학습(distributional reinforcement learning, RL)에서 분포 추정의 효율성을 높이기 위해 expectile과 quantile을 함께 학습하는 새로운 방법을 제안합니다. 기존 quantile regression 기반의 접근 방식은 비대칭 $L_1$ loss를 사용하지만, 효율성을 위해 비대칭 hybrid $L_1$-$L_2$ Huber loss를 사용하는 경우 분포 추정의 보장이 사라지고 분포가 평균으로 붕괴되는 문제가 발생합니다. 본 논문에서는 $L_2$-based 학습의 효율성을 활용하여 expectile과 quantile을 동시에 학습함으로써 효율적인 학습과 전체 분포 추정을 동시에 달성하는 방법을 제시합니다. 무한한 quantile과 expectile 분율의 극한에서 제안된 연산자가 분포 Bellman 연산자로 수렴함을 증명하고, 간단한 예시와 Atari 벤치마크를 통해 실험적으로 성능을 검증합니다. Atari 벤치마크 결과, 제안된 방법은 2억 프레임 학습 후 Huber 기반 IQN-1 baseline과 유사한 성능을 달성하면서 분포 붕괴를 방지하고 전체 분포 추정을 유지합니다.

시사점, 한계점

시사점:
expectile과 quantile을 결합하여 분포 강화학습의 효율성을 높이는 새로운 방법을 제시.
$L_2$-based 학습의 장점을 활용하여 빠른 학습 속도를 달성.
기존 방법의 분포 붕괴 문제를 해결하고 전체 분포의 추정을 유지.
Atari 벤치마크에서 기존 방법과 유사한 성능을 달성.
한계점:
제안된 방법의 효과가 Atari 벤치마크에서만 검증되었으며, 다른 환경에서의 일반화 성능은 추가적인 연구가 필요.
무한한 quantile과 expectile 분율의 극한에서의 수렴성 증명은 이론적 결과이며, 실제 학습 과정에서의 성능과의 차이가 있을 수 있음.
toy example 외 추가적인 실험 결과가 제한적임.
👍