Tape: A Cellular Automata Benchmark for Evaluating Rule-Shift Generalization in Reinforcement Learning

Created by

Haebom

저자

Enze Pan

💡 개요

본 연구는 강화학습에서 동적 환경 변화에 대한 일반화 성능을 평가하기 위한 새로운 벤치마크인 'Tape'를 제안합니다. Tape는 관찰-행동 인터페이스를 고정시킨 채, 오직 잠재적인 규칙 변화(dynamics shift)만을 분리하여 측정함으로써 out-of-distribution(OOD) 일반화 성능 진단을 용이하게 합니다. 연구 결과, 다양한 강화학습 알고리즘들이 규칙 변화에 대해 일관되게 성능 저하를 보이며, 특히 주기적이거나 혼돈적인 규칙 변화에 취약함을 확인했습니다.

🔑 시사점 및 한계

•

강화학습 알고리즘들이 명확한 환경 변화 정보 없이 잠재적인 규칙 변화에 매우 취약하다는 점을 보여줍니다.

•

'Tape' 벤치마크는 규칙 변화 일반화 성능을 체계적으로 평가하고 진단하는 데 유용한 도구로 활용될 수 있습니다.

•

본 벤치마크는 1차원의 단순한 결정론적 환경을 사용하므로, 복잡하고 실제적인 환경에서의 규칙 변화 일반화 성능을 완전히 반영하지는 못할 수 있습니다.

PDF 보기

Made with Slashpage