Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Single-Step Updates: Reinforcement Learning of Heuristics with Limited-Horizon Search

Created by
  • Haebom
Category
Empty

저자

Gal Hadar, Forest Agostinelli, Shahaf S. Shperberg

개요

많은 순차적 의사 결정 문제는 최단 경로 문제로 공식화될 수 있으며, 목표는 주어진 시작 상태에서 목표 상태에 도달하는 것이다. 휴리스틱 탐색은 이러한 문제를 해결하기 위한 표준 접근 방식으로, 주어진 상태에서 목표까지의 비용을 추정하기 위해 휴리스틱 함수에 의존한다. 최근 접근 방식은 딥 근사 가치 반복을 적용하여 휴리스틱을 학습하기 위해 강화 학습을 활용한다. 이 연구는 단일 단계 Bellman 업데이트에 의존하는데, 여기서 상태의 휴리스틱은 최상의 이웃과 해당 에지 비용을 기반으로 업데이트된다. 이 연구는 제한된 지평 탐색을 수행하고, 에지 비용과 프론티어 상태의 휴리스틱 값을 모두 통합하여 각 상태의 휴리스틱을 탐색 프론티어까지의 최단 경로를 기반으로 업데이트함으로써, 상태 샘플링과 휴리스틱 업데이트를 모두 향상시키는 일반화된 접근 방식을 제안한다.

시사점, 한계점

시사점:
제한된 지평 탐색을 통해 상태 샘플링 및 휴리스틱 업데이트 향상.
에지 비용과 프론티어 상태의 휴리스틱 값을 모두 통합하여 최단 경로를 기반으로 휴리스틱 업데이트.
한계점:
논문에 구체적인 한계점 정보가 제공되지 않음.
👍