Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation

Created by
  • Haebom

저자

Hongyi Zhou, Josiah P. Hanna, Jin Zhu, Ying Yang, Chengchun Shi

개요

본 논문은 강화학습에서 중요도 샘플링을 이용한 오프-폴리시 평가(OPE)를 연구하며, 특히 행동 정책 추정에 초점을 맞추고 있다. 기존 연구는 진정한 행동 정책이 마르코프적이더라도 과거에 의존적인 행동 정책을 추정하는 것이 평균 제곱 오차(MSE)를 낮출 수 있음을 경험적으로 보여주었다. 하지만 왜 과거를 사용하는 것이 MSE를 낮추는지에 대한 질문은 여전히 열려 있었다. 본 논문에서는 일반적인 중요도 샘플링(IS) 추정기의 MSE에 대한 바이어스-분산 분해를 유도하여 이러한 역설을 이론적으로 설명함으로써 해결한다. 과거에 의존적인 행동 정책 추정은 유한 표본 바이어스를 증가시키지만, 점근적 분산을 감소시킨다는 것을 보여준다. 또한, 추정된 행동 정책이 더 긴 과거를 조건으로 할수록 분산이 일관되게 감소함을 보인다. 본 논문은 이러한 결과를 순차적 IS 추정기, 이중 강건 추정기, 주변화된 IS 추정기를 포함한 다양한 다른 OPE 추정기에 확장하며, 행동 정책을 매개변수적으로 또는 비매개변수적으로 추정한다.

시사점, 한계점

시사점: 과거에 의존적인 행동 정책 추정이 OPE에서 MSE를 감소시키는 이유를 이론적으로 설명하고, 다양한 OPE 추정기에 대한 일반화된 결과를 제시한다. 점근적 분산 감소와 유한 표본 바이어스 증가 간의 트레이드오프를 명확히 함으로써 OPE의 설계 및 향상에 대한 통찰력을 제공한다. 더 긴 과거를 고려할수록 분산이 감소한다는 점을 증명한다.
한계점: 본 논문의 분석은 점근적 결과에 기반하며, 유한 표본 상황에서의 성능은 추가적인 실험적 검증이 필요하다. 특정한 행동 정책과 환경에서만 유효할 수 있는 제한적인 가정이 있을 수 있다. 실제 응용에서 과거의 길이를 어떻게 선택할 것인지에 대한 지침이 부족하다.
👍