Stratego는 대규모 숨겨진 정보를 바탕으로 전략적 의사 결정을 요구하는 보드 게임으로, 인공 지능 벤치마크로 간주되었지만, 기존의 대규모 투자를 통한 시도가 인간 최고 수준의 성능을 달성하지 못했습니다. 본 연구는 Stratego에서 인간 최고 수준을 넘어 압도적인 수준의 성능을 달성했으며, 이를 위해 산업적인 예산이 아닌 수천 달러의 비용만 사용했습니다. 이 결과는 불완전 정보 환경에서 자기 학습 강화 학습과 테스트 시간 검색에 대한 일반적인 접근 방식을 개발하여 얻어졌습니다.