본 논문은 과도하게 매개변수가 많은 모델이 보간점 이후 일반화 성능이 향상되는 이중 하강(DD) 현상이 딥러닝 강화 학습(DRL)의 비정상성 영역에서 존재하는지 여부를 연구한다. Actor-Critic 프레임워크를 사용하여 다양한 모델 용량에서 DD 현상을 체계적으로 조사하고, 정책 불확실성을 측정하기 위해 정보 이론적 지표인 정책 엔트로피를 사용한다. 예비 결과는 두 번째 하강 영역으로의 진입이 정책 엔트로피의 지속적이고 유의미한 감소와 관련되어 있음을 보여준다.