Sign In

Learning from Less: SINDy Surrogates in RL

Created by
  • Haebom
Category
Empty

저자

Aniket Dixit, Muhammad Ibrahim Khan, Faizan Ahmed, James Brusey

개요

본 논문은 강화학습(RL)에서 SINDy(Sparse Identification of Nonlinear Dynamics) 알고리즘을 이용하여 대리 환경을 개발하는 접근 방식을 제시한다. OpenAI Gym 환경(특히 Mountain Car와 Lunar Lander)에서의 광범위한 실험을 통해 접근 방식의 효과를 입증한다. SINDy 기반 대리 모델은 환경의 기본 역학을 정확하게 포착하면서 계산 비용을 20-35% 줄이는 것으로 나타났다. Mountain Car에서는 75회, Lunar Lander에서는 1000회의 상호작용만으로 0.997을 초과하는 상태별 상관관계를 달성했으며, Mountain Car 속도의 경우 3.11e-06, Lunar Lander 위치의 경우 1.42e-06만큼 낮은 평균 제곱 오차를 달성했다. 이러한 대리 환경에서 훈련된 RL 에이전트는 원래 환경에서 훈련된 에이전트와 유사한 성능을 보이며, 유사한 수렴 패턴과 최종 성능 지표를 보이면서 더 적은 단계(Mountain Car의 경우 65,075 vs 100,000, Lunar Lander의 경우 801,000 vs 1,000,000)를 필요로 한다. 본 연구는 정확하고 해석 가능한 대리 환경을 생성하는 효율적인 방법을 제공함으로써 모델 기반 RL 분야에 기여한다.

시사점, 한계점

시사점:
SINDy 알고리즘을 이용한 효율적인 대리 환경 생성 방법 제시.
계산 비용 감소(20-35%) 및 훈련 단계 감소(Mountain Car: 65,075 vs 100,000, Lunar Lander: 801,000 vs 1,000,000)를 통한 강화학습 효율 향상.
높은 정확도의 대리 모델 생성 (상태별 상관관계 0.997 초과, 낮은 MSE).
해석 가능한 모델을 제공하여 모델의 동작 이해 용이.
한계점:
OpenAI Gym의 Mountain Car와 Lunar Lander 환경에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요.
다른 복잡한 환경에 적용 가능성 및 성능 검증 필요.
SINDy 알고리즘의 매개변수 조정에 대한 자세한 설명 부족.
대리 환경 생성에 필요한 상호작용 횟수(75회, 1000회)가 환경에 따라 달라질 수 있으며, 다른 환경에서는 더 많은 상호작용이 필요할 수 있다는 점.
👍