Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bidirectional Soft Actor-Critic: Leveraging Forward and Reverse KL Divergence for Efficient Reinforcement Learning

Created by
  • Haebom

저자

Yixian Zhang, Huaze Tang, Changxu Wei, Wenbo Ding

개요

본 논문은 최대 엔트로피 강화학습에서 최첨단 알고리즘으로 알려진 Soft Actor-Critic (SAC) 알고리즘의 정책 업데이트 방식을 개선하는 연구에 관한 것입니다. 기존 SAC 알고리즘은 역방향 Kullback-Leibler (KL) 발산을 최소화하는 방식을 사용하지만, 이는 계산적으로 다루기 어려운 최적 투영 정책으로 이어져 불안정성과 샘플 효율성 저하를 야기합니다. 본 논문은 SAC 내에서 전방향 KL 발산을 사용하는 대안적인 방법을 제시합니다. 가우시안 정책의 경우 전방향 KL 발산이 명시적인 최적 투영 정책을 산출함을 보이고, 이는 목표 볼츠만 분포의 행동 주변 확률의 평균과 분산에 해당합니다. 양방향 KL 발산의 장점을 결합하여, 전방향 KL 투영으로 정책을 초기화한 후 역방향 KL 발산을 최적화하여 정책을 개선하는 Bidirectional SAC 알고리즘을 제안합니다. 연속 제어 벤치마크에 대한 종합적인 실험 결과, Bidirectional SAC는 기존 SAC 및 다른 기준 알고리즘을 상당히 능가하며, 에피소드 보상을 최대 30%까지 증가시키고 샘플 효율성도 향상시키는 것을 보여줍니다.

시사점, 한계점

시사점:
전방향 KL 발산을 이용하여 SAC 알고리즘의 안정성과 샘플 효율성을 개선할 수 있음을 보임.
명시적인 최적 투영 정책을 통해 기존 SAC 알고리즘의 한계를 극복함.
Bidirectional SAC 알고리즘을 통해 기존 알고리즘보다 최대 30% 향상된 에피소드 보상과 향상된 샘플 효율성을 달성함.
한계점:
제안된 알고리즘의 성능 향상이 특정 벤치마크에 국한될 가능성이 있음.
가우시안 정책에만 적용 가능하며, 다른 형태의 정책에는 적용 가능성이 제한적일 수 있음.
실험 결과의 일반화 가능성에 대한 추가적인 연구가 필요함.
👍