From Imitation to Interaction: Mastering Game of Schnapsen with Shallow Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Jan Kla\v{c}an, Sizhong Zhang

💡 개요

본 논문은 얕은 신경망 기반 강화학습 에이전트가 카드 게임인 Schnapsen을 마스터하고 강력한 검색 기반 baseline인 RdeepBot에 도전할 수 있는지 탐구합니다. 지도 학습 에이전트(MLPBot)는 재현 데이터로 훈련되었으나 RdeepBot 상대에게 효과적이지 못했지만, 강화학습 에이전트(RLBot)는 더 나은 성능을 보여주었습니다. 특히, RLBot은 학습된 가치 함수를 깊은 탐색과 결합했을 때 RdeepBot 대비 통계적으로 유의미하게 높은 승률을 달성했습니다.

🔑 시사점 및 한계

•

얕은 신경망 기반 강화학습은 강력한 탐색 기반 게임 AI에 대항할 수 있는 잠재력을 가지고 있습니다.

•

지도 학습 방식은 복잡한 게임 환경에서 일반화 성능이 떨어지지만, 강화학습은 더 강건한 에이전트를 생성합니다.

•

훈련 샘플 수에 따른 성능 향상이 선형적이지 않고 특정 지점에서 최적의 성능을 보이는 등, 강화학습의 샘플 효율성 및 수렴성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage