Sign In

Can We Optimize Deep RL Policy Weights as Trajectory Modeling?

Created by
  • Haebom
Category
Empty

저자

Hongyao Tang

개요

본 논문은 심층 강화학습(DRL)에서 최적 정책을 무작위 네트워크 초기화로부터 학습하는 과정에 초점을 맞춥니다. DRL 훈련 규모가 커짐에 따라, DRL 정책 네트워크 가중치를 새로운 데이터 모달리티로 취급하고 잠재력을 탐색하는 것이 매력적이고 가능해집니다. 본 연구는 정책 학습 과정의 진화를 반영하는 과거 정책들의 네트워크 가중치 궤적(policy learning path)으로 표현되는 심층 강화학습의 정책 학습 경로에 집중합니다. 트랜스포머를 이용한 궤적 모델링의 아이디어를 활용하여, 자기회귀 방식으로 정책 네트워크 가중치를 처리하는 트랜스포머 기반 암시적 정책 학습기(TIPL)를 제안합니다. 독립적인 RL 훈련 시행을 통해 정책 학습 경로 데이터를 수집하고, 이를 사용하여 TIPL 모델을 훈련합니다. 실험을 통해 TIPL이 정책 학습의 암시적 동역학을 적합시키고 추론을 통해 정책 네트워크를 최적화할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
DRL 정책 학습 과정의 암시적 동역학을 모델링하는 새로운 방법 제시
트랜스포머를 활용하여 정책 네트워크 가중치 궤적을 효과적으로 처리
추론을 통해 정책 네트워크 최적화 가능성 제시
한계점:
TIPL 모델의 일반화 성능에 대한 추가적인 실험 필요
다양한 환경 및 DRL 알고리즘에 대한 적용성 검증 필요
정책 학습 경로 데이터 수집에 대한 효율성 개선 필요
👍