Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Variance-Dependent Regret Lower Bounds for Contextual Bandits

Created by
  • Haebom
Category
Empty

저자

Jiafan He, Quanquan Gu

개요

본 논문은 선형 상황 밴딧 문제에서 분산 의존적 후회 상한에 대한 연구를 확장하여, 일반적인 분산 시퀀스에 대한 후회 하한을 제시합니다. 기존 연구들은 주로 후회 상한에 집중했지만, 본 논문은 고정된 총 분산 예산이 아닌 일반적인 분산 시퀀스 $\sigma_1^2, \ldots, \sigma_K^2$를 고려합니다. 두 가지 설정, 즉 학습 과정 시작 시 전체 분산 시퀀스가 알려지는 사전 설정 시퀀스와 적응적 시퀀스(적대적 환경에서 각 라운드의 분산이 이전 관측값에 기반하여 생성되는 경우)에 대해 후회 하한을 증명합니다. 사전 설정 시퀀스의 경우 $\Omega(d \sqrt{\sum_{k=1}^K\sigma_k^2 }/\log K)$의 하한을, 적응적 시퀀스의 경우(적대자가 결정 집합 $\mathcal{D}k$를 관측하기 전에 $\sigma_k^2$를 생성해야 하는 경우) $\Omega(d\sqrt{ \sum{k=1}^K\sigma_k^2} /\log^6(dK))$의 하한을 제시하며, 이는 기존 SAVE 알고리즘의 상한과 로그 인자를 제외하고 일치합니다. 이는 기존 Jia et al. (2024)의 하한보다 개선된 결과로, 상한과 하한 사이의 차이를 줄입니다.

시사점, 한계점

시사점:
선형 상황 밴딧 문제에서 일반적인 분산 시퀀스에 대한 후회 하한을 최초로 제시함으로써, 기존 연구의 격차를 줄였습니다.
사전 설정 및 적응적 시퀀스 설정 모두에서 SAVE 알고리즘의 상한과 일치하는 하한을 제시하여 이론적 이해를 높였습니다.
기존 Jia et al. (2024)의 하한의 한계를 극복하고 더욱 정교한 분석을 제공합니다.
한계점:
적응적 시퀀스 설정에서 적대자가 결정 집합 $\mathcal{D}_k$를 관측하기 전에 $\sigma_k^2$를 생성해야 한다는 제약 조건이 존재합니다. 더 일반적인 적응적 시퀀스에 대한 하한 분석이 필요합니다.
상한과 하한 사이에 여전히 로그 인자의 차이가 존재합니다. 이 차이를 줄이기 위한 추가 연구가 필요합니다.
👍