Planning in a recurrent neural network that plays Sokoban
Created by
Haebom
저자
Mohammad Taufeeque, Philip Quirke, Maximilian Li, Chris Cundy, Aaron David Tucker, Adam Gleave, Adria Garriga-Alonso
개요
본 논문은 순환 신경망(RNN)이 복잡한 퍼즐 게임인 소코반을 해결하는 과정에서 계획을 수립하는 내부 메커니즘을 분석합니다. RNN이 약 50단계 앞까지 미래 행동을 예측하는 인과적 계획 표현을 가지고 있으며, 계획의 질과 길이는 초기 단계에서 증가함을 발견했습니다. 또한, RNN이 레벨 시작 시 추가적인 계산을 위해 주기적으로 "페이싱(pacing)"하는 놀라운 행동을 보이며, 이 행동이 훈련에 의해 유도됨을 보였습니다. 이러한 통찰력을 활용하여 훈련된 RNN을 훨씬 더 크고 분포 외의 소코반 퍼즐로 확장하여 훈련 체제를 넘어선 강력한 표현을 보여줍니다. 모델과 코드를 공개하며, 신경망의 흥미로운 행동이 학습된 계획에 대한 이해를 심화시키는 데 훌륭한 모델 유기체가 될 것이라고 주장합니다.