Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions

Created by
  • Haebom

저자

Ayush Jain, Norio Kosaka, Xinhu Li, Kyung-Min Kim, Erdem B{\i}y{\i}k, Joseph J. Lim

개요

강화 학습에서 DDPG 및 TD3와 같은 오프 폴리시 액터-크리틱 방법은 결정론적 정책 기울기를 사용합니다. Q-함수는 환경 데이터에서 학습되고, 액터는 기울기 상승을 통해 이를 최대화합니다. 그러나 복잡한 작업에서 Q-함수는 많은 지역 최적점을 나타내어 기울기 상승이 정체될 수 있습니다. 이를 해결하기 위해 SAVO를 제안합니다. SAVO는 (i) 여러 액션 제안을 생성하고 가장 높은 Q-값을 가진 것을 선택하며, (ii) 성능이 좋지 않은 지역 최적점을 잘라내어 기울기 상승을 보다 효과적으로 유도합니다. 제한된 이동, 능숙한 조작 및 대규모 이산 액션 공간 추천 시스템에서 SAVO가 최적의 액션을 더 자주 찾아 기존 액터 아키텍처보다 뛰어난 성능을 보임을 보입니다.

시사점, 한계점

시사점:
복잡한 작업에서 액터의 성능 향상을 위한 새로운 액터 아키텍처 SAVO 제안.
다중 액션 제안과 Q-함수 근사를 통한 지역 최적점 문제 해결.
제한된 이동, 능숙한 조작, 추천 시스템 등 다양한 작업에서 성능 입증.
한계점:
논문에서 구체적인 한계점에 대한 언급이 없음.
👍