Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sequential Monte Carlo for Policy Optimization in Continuous POMDPs

Created by
  • Haebom

저자

Hany Abdulsamad, Sahel Iqbal, Simo Sarkka

개요

불완전 관찰 하에서 최적 의사 결정은 에이전트가 불확실성을 줄이는 것(탐험)과 즉각적인 목표를 추구하는 것(이용) 사이의 균형을 필요로 합니다. 본 논문에서는 이러한 과제를 명시적으로 해결하는 연속 부분 관찰 마르코프 결정 프로세스(POMDP)를 위한 새로운 정책 최적화 프레임워크를 소개합니다. 본 연구는 정책 학습을 비마르코프 Feynman-Kac 모델에서 확률적 추론으로 간주하여 하위 최적 근사 또는 수작업 기반 휴리스틱 없이 미래 관측을 예상하여 정보 수집의 가치를 본질적으로 포착합니다. 이 모델에서 정책을 최적화하기 위해 POMDP에 의해 유도된 최적 궤적 분포에서 샘플링된 기록 종속 정책 기울기를 효율적으로 추정하는 중첩 순차 몬테카를로(SMC) 알고리즘을 개발했습니다. 기존 방법들이 불확실성 하에서 어려움을 겪는 표준 연속 POMDP 벤치마크에서 알고리즘의 효과를 입증했습니다.

시사점, 한계점

새로운 정책 최적화 프레임워크는 연속 POMDP 문제에서 탐험과 이용의 균형을 효과적으로 처리합니다.
비마르코프 Feynman-Kac 모델을 사용하여 미래 관측을 예상함으로써 정보 수집의 가치를 포착합니다.
중첩 SMC 알고리즘은 최적 궤적 분포에서 샘플을 사용하여 기록 종속 정책 기울기를 효율적으로 추정합니다.
기존 방법이 어려움을 겪는 표준 벤치마크에서 알고리즘의 효과를 입증했습니다.
제공된 논문 설명만으로는 한계점을 알 수 없습니다.
👍