본 논문은 그룹 기반 정책 최적화 방법에서 발생하는 기울기 소실 문제를 해결하기 위해, 온라인 샘플 수준의 어려움 추정을 통해 동적으로 샘플을 선택하는 VADE 프레임워크를 제안합니다. VADE는 베타 분포를 사용한 온라인 샘플 수준 어려움 추정, 정보 획득을 최대화하는 Thompson 샘플러, 정책 진화 하에서 견고한 추정을 유지하는 두 가지 척도 사전 감쇠 메커니즘을 통합합니다. 이를 통해 가장 유익한 샘플을 동적으로 선택하여 추가 롤아웃 비용 없이 훈련 신호를 증폭시킵니다.