본 논문은 최대 엔트로피 강화학습에서 최첨단 알고리즘으로 알려진 Soft Actor-Critic (SAC) 알고리즘의 정책 업데이트 방식을 개선하는 연구에 관한 것입니다. 기존 SAC 알고리즘은 역방향 Kullback-Leibler (KL) 발산을 최소화하는 방식을 사용하지만, 이는 계산적으로 다루기 어려운 최적 투영 정책으로 이어져 불안정성과 샘플 효율성 저하를 야기합니다. 본 논문은 SAC 내에서 전방향 KL 발산을 사용하는 대안적인 방법을 제시합니다. 가우시안 정책의 경우 전방향 KL 발산이 명시적인 최적 투영 정책을 산출함을 보이고, 이는 목표 볼츠만 분포의 행동 주변 확률의 평균과 분산에 해당합니다. 양방향 KL 발산의 장점을 결합하여, 전방향 KL 투영으로 정책을 초기화한 후 역방향 KL 발산을 최적화하여 정책을 개선하는 Bidirectional SAC 알고리즘을 제안합니다. 연속 제어 벤치마크에 대한 종합적인 실험 결과, Bidirectional SAC는 기존 SAC 및 다른 기준 알고리즘을 상당히 능가하며, 에피소드 보상을 최대 30%까지 증가시키고 샘플 효율성도 향상시키는 것을 보여줍니다.