Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Best-Effort Policies for Robust Markov Decision Processes

Created by
  • Haebom
Category
Empty

저자

Alessandro Abate, Thom Badings, Giuseppe De Giacomo, Francesco Fabiano

개요

본 논문은 robust Markov decision processes (RMDPs)에서 최적의 robust best-effort (ORBE) 정책을 제안한다. RMDP는 전이 확률의 집합을 가진 Markov decision processes (MDPs)의 일반화로, 적대적인 전이 확률 선택 하에서 기대 보상을 최대화하는 정책을 찾는 것이 목표이다. s-rectangularity가 있는 경우, robust value iteration을 통해 효율적으로 계산할 수 있지만, 여러 최적의 robust 정책이 존재할 수 있다. 이 논문은 게임 이론의 우월성 및 best-effort 개념에서 영감을 얻어, 최악의 경우 기대 보상을 최대화하는 것 외에도 다양한 (적대적이지 않은) 전이 확률 하에서 최대 기대 보상을 달성하는 ORBE 정책을 제안한다. ORBE 정책은 항상 존재하며, 구조를 특징짓고, robust value iteration에 비해 관리 가능한 오버헤드로 계산하는 알고리즘을 제시한다.

시사점, 한계점

ORBE 정책은 최적의 robust 정책 간의 차별성을 제공한다.
수치 실험을 통해 제안된 접근 방식의 타당성을 입증했다.
논문은 RMDP 내에서 정책 선택 기준을 개선한다.
알고리즘의 오버헤드는 고려해야 할 사항이다.
👍