Sign In

Taming Infinity one Chunk at a Time: Concisely Represented Strategies in One-Counter MDPs

Created by
  • Haebom
Category
Empty

저자

Michal Ajdarow, James C. A. Main, Petr Novotny, Mickael Randour

개요

본 논문은 확률적 환경에서 의사결정을 추론하는 표준 모델인 마르코프 의사결정 과정(MDPs)에 대해 연구합니다. 특히, 자연수 값을 가지는 카운터를 추가하여 무한 MDP를 구성하는 원-카운터 MDPs(OC-MDPs)를 연구합니다. 목표는 목표 상태에 도달하는 것(상태 도달 가능성)과 카운터 값이 0인 목표 상태에 도달하는 것(선택적 종료) 두 가지입니다. 후자의 합성 문제는 결정 가능성이 알려지지 않았으며, 수론의 주요 미해결 문제와 관련이 있습니다. 무한 구성 공간으로 인해, 간단한 전략(예: 메모리 없는 전략)조차도 실제로 구축하기 어려울 수 있으므로, 유한하고 바람직하게는 작은 표현이 필요합니다. 이러한 문제를 해결하기 위해, 카운터 값을 구간으로 분할하는 (무한할 수 있는) 분할을 기반으로 하는 두 가지 자연스러운 간결한 전략 클래스를 소개합니다. 두 클래스와 두 목표에 대해 검증 문제(주어진 전략이 목표에 대해 충분히 높은 확률을 보장하는가?)와 두 가지 합성 문제(그러한 전략이 존재하는가?)를 연구합니다. 하나는 구간 분할이 입력으로 고정되는 경우이고, 다른 하나는 매개변수화되는 경우입니다. 유도된 무한 MDP의 압축을 기반으로 하는 일반적인 접근 방식을 개발하여 모든 경우에 결정 가능성을 얻었으며, 모든 복잡도는 PSPACE 내에 있습니다.

시사점, 한계점

시사점:
OC-MDPs에서 상태 도달 가능성 및 선택적 종료 문제에 대한 새로운 접근 방식을 제시합니다.
구간 기반 전략을 사용하여 무한 MDP의 합성 및 검증 문제를 해결할 수 있음을 보여줍니다.
모든 문제에 대한 PSPACE 복잡도 한계를 제시합니다.
무한 MDP 문제를 해결하기 위한 효율적인 압축 기술을 개발합니다.
한계점:
제안된 전략 클래스가 모든 가능한 전략을 포괄하는지 여부는 불확실합니다.
실제 응용 분야에서 제안된 알고리즘의 효율성을 실험적으로 평가하지 않았습니다.
구간 분할의 선택이 최적의 전략을 찾는 데 미치는 영향에 대한 추가 연구가 필요합니다.
👍