Tom Silver, Rohan Chitnis, Nishanth Kumar, Willie McClinton, Tomas Lozano-Perez, Leslie Pack Kaelbling, Joshua Tenenbaum
개요
본 논문은 연속적인 상태 및 행동 공간에서의 효율적인 계획 수립의 어려움을 해결하기 위해 추상화를 이용한 2단계 계획을 제안합니다. 기존 연구에서는 심볼릭 프리디케이트 형태의 상태 추상화를 수동으로 설계하고, 시범 데이터로부터 2단계 계획을 위한 연산자와 샘플러를 학습하는 방식을 사용했습니다. 본 논문에서는 상태 추상화를 수동으로 지정할 필요 없이, 시범 데이터로부터 프리디케이트를 학습하는 알고리즘을 제안합니다. 핵심 아이디어는 실제 효율적인 계획 목표에 충실하면서도 다루기 쉬운 대리 목표 함수를 최적화하여 프리디케이트를 학습하는 것입니다. 문법으로부터 추출된 프리디케이트 집합에 대한 탐색을 통해 이 대리 목표 함수를 사용합니다. 4가지 로봇 계획 환경에서의 실험 결과, 학습된 추상화가 기존 방법들보다 우수한 성능을 보이며 미지의 과제를 빠르게 해결함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
상태 추상화를 수동으로 설계할 필요 없이 데이터로부터 자동으로 학습하는 방법을 제시함으로써, 연속 상태 및 행동 공간에서의 계획 문제 해결에 대한 접근성을 높였습니다.
◦
제안된 알고리즘이 다양한 로봇 계획 환경에서 기존 방법들보다 우수한 성능을 보임을 실험적으로 증명했습니다.