Sign In

From Contextual Combinatorial Semi-Bandits to Bandit List Classification: Improved Sample Complexity with Sparse Rewards

Created by
  • Haebom
Category
Empty

저자

Liad Erez, Tomer Koren

개요

본 논문은 컨텍스트 기반 조합 반-밴딧 문제를 연구하며, 입력 컨텍스트가 $K$개의 가능한 액션 중 크기 $m$의 부분 집합에 매핑되는 경우를 다룬다. 특히 보상의 합이 $s \ll K$로 제한되는 $s$-희소성을 가정한다. 이 논문은 $(\epsilon,\delta)$-PAC 문제에 대한 알고리즘을 설계하여 $\tilde{O}((poly(K/m)+sm/\epsilon^2) \log(|\Pi|/\delta))$의 샘플 복잡도로 $\epsilon$-최적 정책을 반환한다. 이는 $s \ll K$일 때 기존의 조합 반-밴딧에 대한 경계보다 개선된 것이며, $s=O(1)$일 때는 밴딧 피드백이 사실상 비용이 들지 않는다는 것을 의미한다. 또한, 단일 레이블 분류의 특수한 경우에 대한 개선된 샘플 복잡도 경계를 제시하고, 적대적으로 생성된 데이터에 대한 후회 최소화 설정을 고려하여 후회 경계를 설정한다.

시사점, 한계점

시사점:
$s \ll K$ 조건 하에서 조합 반-밴딧 문제에 대한 샘플 복잡도 경계를 개선했다.
$s=O(1)$일 때 밴딧 피드백의 비용이 거의 없음을 보여주었다.
단일 레이블 분류의 특수한 경우에 대한 샘플 복잡도 경계를 개선했다.
적대적 데이터에 대한 후회 경계를 설정했다.
한계점:
알고리즘의 계산 효율성은 ERM 오라클에 접근할 수 있어야 한다는 조건에 의존한다.
특정 상황(예: $s=m=1$)에 대한 구체적인 성능 개선이 제한적일 수 있다.
제안된 방법이 모든 컨텍스트 반-밴딧 문제에 적용될 수 있는 일반적인 솔루션인지에 대한 명시적인 논의는 부족하다.
👍