ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts
Created by
Haebom
Category
Empty
저자
Hang Yu, Di Zhang, Qiwei Du, Yanping Zhao, Hai Zhang, Guang Chen, Eduardo E. Veas, Junqiao Zhao
개요
ASTRO는 사전 수집된 데이터셋으로부터 최적 정책을 학습하는 오프라인 강화 학습(RL)을 위한 데이터 증강 프레임워크입니다. 불완전하고 단편적인 궤적이 있는 데이터셋의 문제를 해결하기 위해, ASTRO는 분포적으로 새로운 동역학적 일관성을 갖춘 궤적을 생성합니다. ASTRO는 먼저 시공간 거리 표현을 학습하여 뚜렷하고 도달 가능한 연결 목표를 식별합니다. 그런 다음, Rollout Deviation Feedback을 사용하여 궤적 연결의 실행 가능성과 도달 가능성을 향상시키는 동역학 기반 스티치 플래너를 활용합니다. ASTRO는 OGBench와 D4RL을 포함한 다양한 벤치마크에서 기존의 오프라인 RL 증강 방법보다 뛰어난 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
오프라인 RL에서 데이터 증강을 위한 새로운 접근 방식을 제시하여 정책 학습의 효율성을 높였습니다.
◦
분포적으로 새롭고 동역학적으로 일관된 궤적 생성으로 기존 방법의 한계를 극복했습니다.
◦
Rollout Deviation Feedback을 활용한 동역학 기반 스티치 플래너는 궤적 연결의 실행 가능성을 향상시켰습니다.
◦
다양한 알고리즘과 벤치마크에서 기존 방법을 능가하는 성능을 입증했습니다.
•
한계점:
◦
논문에 구체적인 한계점이 명시적으로 언급되지 않았습니다.
◦
(추측) 복잡한 계산 과정을 요구할 수 있으며, 실제 환경에 적용하기 위한 추가 연구가 필요할 수 있습니다.