Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Application of linear regression method to the deep reinforcement learning in continuous action cases

Created by
  • Haebom
Category
Empty

저자

Hisato Komatsu

개요

본 논문은 연속적인 행동 공간에서의 강화학습 성능 향상을 위해, 최소제곱법(LR)을 심층 결정적 정책 경사(DDPG) 알고리즘과 결합한 새로운 방법인 이중 최소제곱 심층 결정적 정책 경사(DLS-DDPG)를 제안합니다. 기존의 최소제곱 심층 Q 네트워크(LS-DQN)는 이산적인 행동 공간에만 적용 가능한 한계를 가지는데, DLS-DDPG는 이를 연속적인 행동 공간으로 확장합니다. MuJoCo 환경에서의 실험 결과, 일부 과제에서 LR 업데이트가 성능 향상을 가져왔지만, 정규화 항을 작게 만드는 데 어려움이 있음을 보였습니다.

시사점, 한계점

시사점: 연속 행동 공간을 갖는 강화학습 문제에서 최소제곱법을 활용하여 DDPG 알고리즘의 성능을 향상시킬 수 있음을 보여줍니다. 일부 과제에서 성능 개선 효과를 확인했습니다.
한계점: 정규화 항을 작게 만드는 데 어려움이 존재합니다. 모든 과제에서 성능 향상을 보장하지는 않습니다.
👍