동적 시스템의 대칭성을 활용하여 상태 변환 예측 및 제어 정책 최적화를 용이하게 하는 오프라인 강화 학습(RL) 접근 방식을 제안합니다. 마르코프 의사 결정 프로세스(MDP)의 대칭성을 가정하여 대칭 데이터 증강 방법을 개발하고, 증강된 샘플을 Deep Deterministic Policy Gradient (DDPG) 데이터 세트에 통합하여 상태-행동 공간의 커버리지율을 향상시킵니다. 또한, 증강된 샘플에 대해 훈련된 두 번째 Critic을 도입하여 샘플 활용 효율성을 개선하는 이중 Critic 구조를 제안합니다. 항공기 모델의 대칭성을 검증하고, 비행 제어 시뮬레이션을 통해 증강된 샘플을 사용할 때 정책 수렴이 가속화됨을 입증합니다.