본 논문은 상호작용 시스템에서 행동 간 상관관계를 활용하여 대규모 행동 공간에서 표본 효율적인 오프-폴리시 평가(OPE) 및 학습(OPL)을 수행하는 통합 베이지안 프레임워크를 제시합니다. 구조적이고 정보가 풍부한 사전 확률을 통해 행동 상관관계를 포착하는 sDM이라는 일반적인 베이지안 접근 방식을 제안하며, 이는 알고리즘적 및 이론적 기반을 모두 갖추고 있습니다. sDM은 계산 효율성을 저해하지 않고 행동 상관관계를 활용하며, 온라인 베이지안 밴딧에서 영감을 받아 기존의 최악의 경우 평가에서 벗어나 여러 문제 인스턴스에 걸친 알고리즘의 평균 성능을 평가하는 베이지안 지표를 도입합니다. OPE 및 OPL에서 sDM을 분석하여 행동 상관관계 활용의 이점을 강조하며, 실험적 증거를 통해 sDM의 강력한 성능을 보여줍니다.