강화 학습에서 DDPG 및 TD3와 같은 오프 폴리시 액터-크리틱 방법은 결정론적 정책 기울기를 사용합니다. Q-함수는 환경 데이터에서 학습되고, 액터는 기울기 상승을 통해 이를 최대화합니다. 그러나 복잡한 작업에서 Q-함수는 많은 지역 최적점을 나타내어 기울기 상승이 정체될 수 있습니다. 이를 해결하기 위해 SAVO를 제안합니다. SAVO는 (i) 여러 액션 제안을 생성하고 가장 높은 Q-값을 가진 것을 선택하며, (ii) 성능이 좋지 않은 지역 최적점을 잘라내어 기울기 상승을 보다 효과적으로 유도합니다. 제한된 이동, 능숙한 조작 및 대규모 이산 액션 공간 추천 시스템에서 SAVO가 최적의 액션을 더 자주 찾아 기존 액터 아키텍처보다 뛰어난 성능을 보임을 보입니다.