Sign In

Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics

Created by
  • Haebom
Category
Empty

저자

Fengxu Li, Stephanie M. Carpenter, Matthew P. Buman, Yonatan Mintz

개요

의사 결정자는 보상이 알려지지 않고 이전 정책에 따라 시간이 지남에 따라 변화하는 행동을 선택해야 하는 과제에 직면합니다. 이러한 비정상성은 Reducing or Gaining Unknown Efficacy (ROGUE) 밴딧 프레임워크를 통해 포착되며, 행동 건강 개입과 같은 실제 설정을 모델링합니다. 기존 알고리즘은 이러한 설정을 최적화하기 위해 아선형 후회 정책을 계산할 수 있지만, 지나치게 활용에 중점을 두어 충분한 탐색을 제공하지 못할 수 있습니다. 본 논문에서는 ROGUE 프레임워크에 맞게 조정된 Thompson Sampling 알고리즘인 ROGUE-TS를 개발하고 아선형 후회에 대한 이론적 보장을 제공합니다. 또한, 후회와 최소 탐색 확률의 균형을 맞추는 정량화된 트레이드 오프를 통해 개인화와 집단 수준 학습의 균형을 맞추기 위한 확률 클리핑 절차를 도입합니다. 신체 활동 증진 및 양극성 장애 치료에 관한 두 개의 MRT 데이터 세트에 대한 검증 결과, 제안된 방법론이 기존 접근 방식보다 낮은 후회를 달성하고 클리핑 절차를 통해 후회를 크게 증가시키지 않으면서 높은 통계적 검정력을 유지함을 보여줍니다. 이를 통해 개인의 행동 역학을 고려하면서 치료 효과를 신뢰할 수 있게 감지할 수 있습니다.

시사점, 한계점

시사점:
ROGUE-TS 알고리즘 개발을 통해 ROGUE 프레임워크에 대한 효과적인 해결책 제시
개인화와 집단 수준 학습의 균형을 맞추는 확률 클리핑 절차 도입
MRT 데이터셋 검증을 통해 기존 방법 대비 성능 우수성 입증 및 통계적 검정력 유지
MRT 설계 시 개인화와 통계적 타당성의 균형을 위한 실질적인 지침 제공
한계점:
논문에 구체적인 한계점 언급 없음 (Abstract의 내용만으로는 파악 불가)
👍