본 논문은 비정상적 다중 팔 밴딧(MAB) 문제에 대한 새로운 알고리즘인 Latent AR LinUCB (LARL)을 제안합니다. 기존 방법들이 비정상성에 대한 제한된 예산에 의존하는 것과 달리, LARL은 자기회귀(AR) 잠재 상태로 인해 변하는 보상 평균을 가진 비정상적 밴딧 문제를 고려합니다. LARL은 잠재 상태를 예측하여 보상 평균을 효율적으로 예측하며, 비정상성 예산에 의존하지 않습니다. 이는 선형 동적 시스템으로 문제를 축소하여 선형 상황 밴딧으로 해결하는 아이디어에 기반합니다. LARL은 정상 상태 칼만 필터를 근사하고 시스템 매개변수를 효율적으로 온라인으로 학습합니다. 논문은 환경의 비정상성 수준에 대한 해석 가능한 후회 경계를 제공하며, 잠재 상태 프로세스의 잡음 분산이 T에 비해 충분히 작을 경우 LARL은 서브리니어 후회를 달성합니다. 실험적으로 LARL은 다양한 기준 방법보다 우수한 성능을 보입니다.