Subgoal-Guided Policy Heuristic Search with Learned Subgoals
Created by
Haebom
Category
Empty
저자
Jake Tuero, Michael Buro, Levi H. S. Lelis
개요
본 논문은 정책 트리 탐색 알고리즘을 위한 하위 목표 기반 정책 학습 방법을 소개합니다. 정책 트리 탐색은 정책을 사용하여 탐색을 안내하는 알고리즘으로, 정책의 품질에 따라 문제 해결에 필요한 확장 횟수를 보장합니다. 기존 정책 학습 방식은 완전한 해결 궤적을 필요로 하여 학습 비용이 높았지만, 본 논문은 실패한 시도의 탐색 트리에서 하위 목표와 하위 목표 기반 정책을 학습하여 샘플 효율성을 개선합니다.