본 논문은 여러 에이전트가 참여하는 상황적 밴딧 문제를 다룬다. 학습자는 순차적으로 상황과 에이전트가 보고한 팔(arm)을 관찰한 후 시스템의 전체 보상을 극대화하는 팔을 선택한다. 기존 연구는 에이전트가 정직하게 팔을 보고한다고 가정하지만, 실제 응용에서는 비현실적이다. 예를 들어, 여러 판매자가 있는 온라인 플랫폼에서 일부 판매자는 플랫폼이 자신의 상품을 온라인 사용자에게 우선적으로 추천하도록 이익을 얻기 위해 상품의 품질을 허위로 표시할 수 있다. 이러한 문제를 해결하기 위해 본 논문은 전략적 에이전트가 포함된 상황적 밴딧 문제를 위한 알고리즘 COBRA를 제안한다. COBRA는 금전적 인센티브 없이 전략적 행동을 억제하고, 인센티브 호환성과 준선형 후회(sub-linear regret) 보장을 갖는다. 실험 결과는 제안된 알고리즘의 다양한 성능 측면을 검증한다.