본 논문은 진화적 최적화 프레임워크를 사용하여 초기 상태를 변화시켜 정보가 풍부하고 다양한 정책 시연을 생성하는 방법을 제시합니다. 국소 다양성, 행동 확실성, 전역 집단 다양성을 결합한 공동 대리 적합도 함수가 최적화를 안내합니다. 시연의 질을 평가하기 위해 보상 기반 최적성 차이, 충실도 사분위수 평균(IQM), 적합도 구성 분석 및 궤적 시각화를 포함한 평가 지표 집합을 적용합니다. 또한 초매개변수 민감도를 조사하여 궤적 최적화의 역학을 더 잘 이해합니다. 실험 결과는 대리 적합도 지표를 통한 궤적 선택 최적화가 이산 및 연속 환경 모두에서 강화 학습 정책의 해석성을 크게 향상시킨다는 것을 보여줍니다. 그리드 월드 영역에서 평가 결과 무작위 및 절단된 기준선과 비교하여 시연 충실도가 크게 향상되었음을 보여줍니다. 연속 제어에서 제안된 프레임워크는 특히 초기 단계 정책에 귀중한 통찰력을 제공하며, 충실도 기반 최적화는 성숙한 정책에 더 효과적임을 보여줍니다. 대리 적합도 함수를 개선하고 체계적으로 분석함으로써 본 연구는 강화 학습 모델의 해석성을 발전시킵니다. 제안된 개선 사항은 강화 학습 의사 결정에 대한 더 깊은 통찰력을 제공하여 안전 중요도가 높고 설명 가능성에 중점을 둔 영역의 응용 분야에 도움이 됩니다.