Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Distributions: Geometric Action Control for Continuous Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Zhihao Lin

개요

Gaussian 정책이 심층 강화 학습 (RL)에서 연속 제어를 지배했지만, 경계가 없는 지지대로 인해 경계가 있는 행동 공간의 기하학을 왜곡하는 임시 스쿼싱 함수가 필요하다는 근본적인 불일치를 겪고 있다. von Mises-Fisher (vMF) 분포는 구에 대한 이론적 근거가 있는 대안을 제공하지만, Bessel 함수와 거부 샘플링에 의존하여 실용적인 채택을 방해한다. Geometric Action Control (GAC)는 계산을 단순화하면서 구형 분포의 기하학적 이점을 보존하는 새로운 행동 생성 패러다임이다. GAC는 행동 생성을 방향 벡터와 학습 가능한 집중 매개변수로 분해하여 결정론적 행동과 균일한 구형 노이즈 사이의 효율적인 보간을 가능하게 한다. 이 설계는 매개변수 수를 2d에서 d+1로 줄이고, vMF 거부 샘플링의 O(dk) 복잡성을 피하여 간단한 O(d) 연산을 달성한다. 경험적으로 GAC는 6개의 MuJoCo 벤치마크에서 최첨단 방법과 일치하거나 능가하며, Ant-v4에서 SAC보다 37.6% 향상되었으며 6개의 작업 중 4개에서 최고의 결과를 달성했다.

시사점, 한계점

GAC는 구형 분포의 기하학적 이점을 활용하여 효율적인 연속 제어를 달성한다.
GAC는 결정론적 행동과 균일한 구형 노이즈 간의 효율적인 보간을 가능하게 한다.
GAC는 기존 방법 대비 적은 매개변수와 단순한 연산을 통해 우수한 성능을 보인다.
구형 정규화 및 적응형 집중 제어가 GAC의 성공에 필수적이다.
본 연구는 복잡한 분포가 아닌, 행동 공간의 기하학에 대한 원칙적인 고려가 견고하고 효율적인 연속 제어를 달성하는 데 중요하다는 것을 보여준다.
코드와 사전 훈련된 모델은 부록 자료에서 제공된다.
👍