Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching

작성자

Haebom

카테고리

Empty

저자

Xiang Li, Nan Jiang

💡 개요

본 논문은 유한 호라이즌 MDP에서 오프-폴리시 평가를 위한 새로운 이론적 프레임워크인 Q-MMR을 제안합니다. Q-MMR은 각 데이터 포인트에 대한 스칼라 가중치 집합을 학습하여, 재가중된 보상이 목표 정책 하에서의 기대 수익을 근사하도록 합니다. 이 가중치는 값 함수 판별기 클래스에 대한 모멘트 매칭 목표를 통해 귀납적으로 학습됩니다.

🔑 시사점 및 한계

•

$Q^\pi$의 실현 가능성만으로도 일반적인 함수 근사에 대한 데이터 종속적인 유한 표본 보장이 가능하며, 차원 독립적인 바운드를 가집니다.

•

제안된 방법론은 중요도 샘플링 및 선형 FQE와 같은 기존 방법과의 연결성을 보여줍니다.

•

커버리지라는 개념에 대한 새로운 이론적 분석을 제공하여 오프라인 RL에서의 중요성을 조명합니다.

•

(한계점 또는 향후 과제) 논문 초록만으로는 구체적인 한계점을 명확히 파악하기 어렵지만, 복잡한 실제 환경에 대한 확장성 및 계산 효율성 측면에서의 추가 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage