Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Randomised Optimism via Competitive Co-Evolution for Matrix Games with Bandit Feedback

Created by
  • Haebom

저자

Shishen Lin

개요

본 논문은 알려지지 않은 보상 행렬과 밴딧 피드백을 가진 2인 제로섬 행렬 게임에서 학습 문제를 다룬다. 기존 연구들은 결정론적 낙관주의(예: UCB)를 사용한 알고리즘을 제안했지만, 무작위 낙관주의의 잠재력은 이론적으로 탐구되지 않았다. 본 논문에서는 진화 알고리즘(EA)을 밴딧 프레임워크에 통합하여 무작위 낙관주의를 구현하는 새로운 알고리즘인 경쟁 공진화 밴딧 학습(COEBL)을 제안한다. COEBL이 결정론적 낙관주의 기반 방법과 일치하는 하선형 후회를 달성함을 증명하고, 다양한 행렬 게임 벤치마크에 대한 실험적 평가를 통해 COEBL이 기존 밴딧 알고리즘(예: Exp3, Exp3-NI, UCB)보다 우수한 성능을 보임을 보여준다. 이는 특히 게임 이론적 환경에서 진화 알고리즘을 통한 무작위 낙관주의의 효과를 강조한다.

시사점, 한계점

시사점:
진화 알고리즘을 이용한 무작위 낙관주의 기반의 새로운 밴딧 학습 알고리즘(COEBL) 제안.
COEBL이 기존 결정론적 낙관주의 기반 알고리즘과 동등한 수준의 하선형 후회를 달성함을 이론적으로 증명.
다양한 벤치마크에서 기존 밴딧 알고리즘들을 상회하는 실험적 성능을 보임.
게임 이론적 환경에서 진화 알고리즘을 통한 무작위 낙관주의의 효용성을 제시.
한계점:
현재 2인 제로섬 행렬 게임에만 국한된 연구. 다른 유형의 게임으로의 확장 필요.
알고리즘의 복잡도 및 계산 비용에 대한 자세한 분석 부족.
실험적 평가에 사용된 벤치마크의 다양성 제한. 더욱 광범위한 실험이 필요.
👍