Sign In

Adaptable Hindsight Experience Replay for Search-Based Learning

Created by
  • Haebom
Category
Empty

저자

Alexandros Vazaios, Jannis Brugger, Cedric Derstroff, Kristian Kersting, Mira Mezini

개요

AlphaZero와 유사한 몬테카를로 트리 탐색 시스템은 원래 2인 게임을 위해 도입되었지만, 신경망 안내를 사용하여 탐색과 활용을 동적으로 균형을 맞추어 고전적인 탐색 문제에도 적합합니다. 그러나 시뮬레이션 결과로 신경망을 훈련하는 원래 방법은 희소 보상 환경, 특히 신경망이 아직 안내를 제공할 수 없는 초기 단계에서 제한적입니다. Hindsight Experience Replay (HER)는 탐색 트리에서 성공하지 못한 궤적을 지도 학습 신호로 재레이블링하여 이 문제를 해결합니다. Adaptable HER (\ours{})는 HER을 AlphaZero와 통합하여 재레이블링된 목표, 정책 목표 및 궤적 선택과 같은 HER 속성을 쉽게 조정할 수 있는 유연한 프레임워크를 소개합니다. 수식 발견을 포함한 실험 결과는 HER을 수정하는 가능성이 유익하며 순수한 지도 학습 또는 강화 학습의 성능을 능가함을 보여줍니다.

시사점, 한계점

시사점:
HER을 AlphaZero와 통합한 Adaptable HER 프레임워크의 개발.
HER 속성(재레이블링된 목표, 정책 목표, 궤적 선택)을 쉽게 조정할 수 있는 유연성 제공.
수식 발견 실험을 통해 순수한 지도 학습 또는 강화 학습보다 우수한 성능 입증.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음.
👍