Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Deep deterministic policy gradient with symmetric data augmentation for lateral attitude tracking control of a fixed-wing aircraft

Created by
  • Haebom
Category
Empty

저자

Yifei Li, Erik-Jan van Kampen

개요

동적 시스템의 대칭성을 활용하여 상태 변환 예측 및 제어 정책 최적화를 용이하게 하는 오프라인 강화 학습(RL) 접근 방식을 제안합니다. 마르코프 의사 결정 프로세스(MDP)의 대칭성을 가정하여 대칭 데이터 증강 방법을 개발하고, 증강된 샘플을 Deep Deterministic Policy Gradient (DDPG) 데이터 세트에 통합하여 상태-행동 공간의 커버리지율을 향상시킵니다. 또한, 증강된 샘플에 대해 훈련된 두 번째 Critic을 도입하여 샘플 활용 효율성을 개선하는 이중 Critic 구조를 제안합니다. 항공기 모델의 대칭성을 검증하고, 비행 제어 시뮬레이션을 통해 증강된 샘플을 사용할 때 정책 수렴이 가속화됨을 입증합니다.

시사점, 한계점

시사점:
동적 시스템의 대칭성을 활용하여 오프라인 RL의 샘플 효율성을 향상시킴.
대칭 데이터 증강을 통해 DDPG의 성능을 개선.
이중 Critic 구조를 도입하여 샘플 활용 효율성을 높임.
항공기 비행 제어 시뮬레이션을 통해 제안된 방법의 효과를 검증.
한계점:
MDP의 대칭성 가정이 필요.
특정 유형의 시스템(항공기 모델)에 대한 검증만 수행됨.
다른 오프라인 RL 알고리즘과의 비교 분석 부재.
👍