의사 결정자는 보상이 알려지지 않고 이전 정책에 따라 시간이 지남에 따라 변화하는 행동을 선택해야 하는 과제에 직면합니다. 이러한 비정상성은 Reducing or Gaining Unknown Efficacy (ROGUE) 밴딧 프레임워크를 통해 포착되며, 행동 건강 개입과 같은 실제 설정을 모델링합니다. 기존 알고리즘은 이러한 설정을 최적화하기 위해 아선형 후회 정책을 계산할 수 있지만, 지나치게 활용에 중점을 두어 충분한 탐색을 제공하지 못할 수 있습니다. 본 논문에서는 ROGUE 프레임워크에 맞게 조정된 Thompson Sampling 알고리즘인 ROGUE-TS를 개발하고 아선형 후회에 대한 이론적 보장을 제공합니다. 또한, 후회와 최소 탐색 확률의 균형을 맞추는 정량화된 트레이드 오프를 통해 개인화와 집단 수준 학습의 균형을 맞추기 위한 확률 클리핑 절차를 도입합니다. 신체 활동 증진 및 양극성 장애 치료에 관한 두 개의 MRT 데이터 세트에 대한 검증 결과, 제안된 방법론이 기존 접근 방식보다 낮은 후회를 달성하고 클리핑 절차를 통해 후회를 크게 증가시키지 않으면서 높은 통계적 검정력을 유지함을 보여줍니다. 이를 통해 개인의 행동 역학을 고려하면서 치료 효과를 신뢰할 수 있게 감지할 수 있습니다.