본 논문은 비정상 환경에서 정책의 미래 가치를 추정하고 최적화하는 미래 오프-정책 평가(F-OPE) 및 학습(F-OPL)이라는 새로운 문제를 연구합니다. 예를 들어 전자상거래 추천에서 목표는 이전 달의 오래된 정책으로 수집된 데이터를 사용하여 다음 달의 정책 가치를 추정하고 최적화하는 것입니다. 중요한 과제는 미래 환경과 관련된 데이터가 과거 데이터에 관찰되지 않는다는 점입니다. 기존 방법은 정상성을 가정하거나 제한적인 보상 모델링 가정에 의존하여 상당한 편향을 초래합니다. 이러한 한계를 해결하기 위해, 논문에서는 임의의 미래 시점에서 정책 가치를 정확하게 추정하도록 설계된 새로운 추정기인 \textit{\textbf{O}ff-\textbf{P}olicy Estimator for the \textbf{F}uture \textbf{V}alue (\textbf{\textit{OPFV}})}를 제안합니다. OPFV의 핵심 기능은 시계열 데이터 내의 유용한 구조를 활용하는 능력입니다. 미래 데이터가 과거 로그에 없을 수도 있지만, 예를 들어 과거 데이터와 미래 데이터 모두에서 일관된 계절적, 주간적 또는 휴일 효과를 활용할 수 있습니다. 본 추정기는 새로운 유형의 중요도 가중치를 통해 이러한 시간 관련 구조를 활용하여 효과적인 F-OPE를 가능하게 하는 최초의 추정기입니다. 이론적 분석은 OPFV가 저편향이 되는 조건을 밝힙니다. 또한, 이 추정기를 확장하여 과거 데이터만을 사용하여 미래 정책을 사전적으로 학습하는 새로운 정책-구배 방법을 개발했습니다. 실험 결과는 비정상성 하에서 다양한 실험 설정에서 제안된 방법이 기존 방법보다 미래 정책 가치를 추정하고 최적화하는 데 상당히 우수함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
비정상 환경에서 미래 정책 가치를 효과적으로 추정 및 최적화하는 새로운 방법(OPFV)을 제시.
◦
시계열 데이터의 시간 관련 구조(계절성, 주간성 등)를 활용하여 기존 방법의 한계를 극복.