본 논문은 e-commerce, 검색 엔진, 미디어 스트리밍 서비스 또는 의료 분야의 자동 진단 도구 등에서 새로운 정책의 효과를 추정하기 위해 로그 데이터를 활용하는 off-policy 평가에 대해 다룬다. 기존의 IPS와 같은 off-policy 추정기는 로그 정책과 평가 정책이 크게 다를 경우 성능이 저하되는 문제점이 있다. 본 연구는 유사한 action을 활용한 기존 연구와 달리, 유사한 context를 클러스터링하여 정보를 공유하는 새로운 추정기를 제안한다. 다양한 조건 하에서 제안된 추정기의 bias와 variance를 특징짓는 이론적 특성을 연구하고, 다양한 합성 문제와 실제 추천 데이터셋을 사용하여 기존 방법과의 성능을 비교한다. 실험 결과, 특히 정보 부족 환경에서 context를 클러스터링하는 것이 추정 정확도를 향상시킨다는 것을 확인하였다.