본 논문은 온라인 및 오프라인 학습 방법을 결합한 새로운 접근 방식을 제시합니다. 병렬 슈퍼컴퓨터의 처리 능력을 활용하여 백개먼 게임의 가치 함수를 학습하는 과정에서 상당한 성능을 달성합니다. 오프라인 방법은 신경망 훈련 및 TD(λ) 강화 학습을 병렬화하기 위한 여러 기법으로 구성됩니다. 여기서 몬테카를로 "롤아웃"은 게임 트리 검색 중 발생하는 의사결정 지점에 자원을 할당하여 학습된 가치 함수 추정치를 더욱 향상시키는 대규모 병렬 온라인 정책 개선 기법으로 도입됩니다. 짧은 학습 기간 안에 현재 챔피언급 인간 및 컴퓨터 백개먼 플레이어와 거의 동등하거나 더 나은 수준의 플레이를 달성했습니다.