본 논문은 여러 에이전트가 알려지지 않은 확률적 조건 하에서 제한된 자원(arm)에 접근하여 작업을 수행하는 현대 자원 공유 시스템을 연구합니다. 여러 에이전트가 동시에 같은 자원에 접근하면 성공적인 사용을 위한 경쟁이 발생하여 충돌과 보상 감소로 이어집니다. 이는 경쟁적 다중 밴딧(CMAB) 게임 연구의 동기를 부여합니다. 논문에서는 비근시안적 플레이어(에이전트)들이 시간에 따라 알려지지 않은 arm에 대한 다양한 개인적 추정을 형성하기 위해 서로 경쟁하는 새로운 N-player K-arm 경쟁 MAB 게임을 연구합니다. 같은 arm에 대한 가능한 충돌과 arm 보상의 시간 변화 특성으로 인해 근시안적 플레이어에 대한 기존 연구보다 정책 분석이 더 복잡해집니다. 사회적 최적과 기존 이기적 정책의 임계값 기반 구조를 명시적으로 분석하여 후자가 연장된 수렴 시간 Ω(K/(η²ln(KN/δ)))을 야기하는 반면, 조정된 통신을 통한 사회적 최적 정책은 이를 O(K/(Nη²)ln(K/δ))로 줄인다는 것을 보여줍니다. 이 비교를 바탕으로 최고 arm에 대한 이기적 플레이어 간의 경쟁이 무한한 무정부 상태 가격(PoA)을 초래할 수 있음을 증명합니다. 즉, 사회적 최적에 비해 임의로 큰 효율성 손실을 나타냅니다. 또한 비근시안적 플레이어의 전략적 오보가 이러한 접근 방식을 훼손하기 때문에 어떠한 정보적(비금전적) 메커니즘(베이지안 설득 포함)도 무한한 PoA를 줄일 수 없음을 증명합니다. 이를 해결하기 위해 사회적 최적 arm 권장 사항을 제공하고 시간에 따라 변하는 개인적 신념에 따라 플레이어에게 적절한 정보적 및 금전적 인센티브를 제공하는 결합 정보 및 부수 지불(CISP) 메커니즘을 제안합니다. CISP 메커니즘은 사회 계획자에 대해 사후 예산 균형을 유지하고 플레이어의 진실된 보고를 보장하여 최소 PoA=1과 사회적 최적과 같은 수렴 시간을 달성합니다.