본 논문은 탐색과 활용 사이의 균형을 맞추는 데 어려움이 있는 확률적 다중 무장 밴딧(MAB) 문제를 다룹니다. 기존의 시간-도메인 및 누적 후회 분석의 한계를 극복하기 위해, 밴딧 프로세스를 신호 처리 문제로 재구성하는 새로운 주파수-도메인 분석 프레임워크를 제안합니다. 이 프레임워크에서 각 무장의 보상 추정치는 스펙트럼 성분으로 간주되고, 불확실성은 성분의 주파수에 해당하며, 밴딧 알고리즘은 적응형 필터로 해석됩니다. 연구진은 주파수-도메인 밴딧 모델을 구축하고, UCB 알고리즘의 신뢰 구간이 주파수 영역에서 방문 횟수의 제곱근에 반비례하는 시간에 따라 변화하는 이득에 해당함을 증명했습니다. 이를 바탕으로 탐색률 감소에 대한 유한 시간 동적 경계를 도출하여 고전적인 알고리즘에 대한 새로운 해석을 제공하고 차세대 알고리즘 설계를 위한 이론적 기반을 마련했습니다.