Deep deterministic policy gradient with symmetric data augmentation for lateral attitude tracking control of a fixed-wing aircraft

Created by

Haebom

저자

Yifei Li, Erik-Jan van Kampen

💡 개요

본 논문은 항공기의 횡방향 자세 제어 문제를 다루며, 마르코프 결정 과정(MDP)의 대칭성을 활용하여 샘플 효율적인 오프라인 강화학습(RL) 방법을 제안한다. 제안된 대칭 데이터 증강 기법은 Deep Deterministic Policy Gradient (DDPG) 알고리즘의 상태-행동 공간 커버리지를 높이고, 추가적인 보조 크리틱 네트워크를 통해 샘플 활용 효율성을 증대시킨다. 이를 통해 항공기 모델의 대칭성을 검증하고, 제어 시뮬레이션에서 정책 수렴 가속화를 입증한다.

🔑 시사점 및 한계

•

동적 시스템의 대칭성을 활용한 데이터 증강 기법은 RL 알고리즘의 샘플 효율성을 크게 향상시킬 수 있다.

•

듀얼 크리틱 구조는 증강된 데이터를 효과적으로 활용하여 정책 학습을 더욱 견고하게 만든다.

•

제안된 방법론은 항공기 횡방향 자세 제어 시뮬레이션에서 기존 DDPG 대비 빠른 정책 수렴을 보여주었으며, 실제 시스템 적용 가능성을 시사한다.

•

본 연구는 대칭성을 가정하는 MDP에 국한되며, 실제 복잡하고 비대칭적인 동적 시스템으로의 일반화 및 다양한 강화학습 알고리즘에의 적용 가능성 연구가 필요하다.

PDF 보기

Made with Slashpage