Sign In

Hybrid DQN-TD3 Reinforcement Learning for Autonomous Navigation in Dynamic Environments

Created by
  • Haebom
Category
Empty

저자

Xiaoyi He, Danggui Chen, Zhenshuo Zhang, Zimeng Bai

개요

본 논문은 고수준의 딥 Q-네트워크(DQN)를 이용한 이산적인 하위 목표 선택과 저수준의 Twin Delayed Deep Deterministic Policy Gradient (TD3) 컨트롤러를 이용한 연속적인 제어를 결합한 계층적 경로 계획 및 제어 프레임워크를 제시한다. 고수준 모듈은 행동 및 하위 목표를 선택하고, 저수준 모듈은 부드러운 속도 명령을 실행한다. 방향, 거리, 장애물 회피, 동작의 부드러움, 충돌 페널티, 시간 페널티 및 진행 상황을 포함하는 실용적인 보상 형태 설계와 안전하지 않은 움직임을 방지하는 LiDAR 기반 안전 게이트를 구현했다. ROS + Gazebo (TurtleBot3) 환경에서 구현되었으며 PathBench 메트릭을 사용하여 동적 및 부분 관측 환경에서 성공률, 충돌률, 경로 효율성, 재계획 효율성 등을 평가했다. 단일 알고리즘(DQN 또는 TD3 단독) 및 규칙 기반 계획보다 향상된 성공률과 샘플 효율성을 보였으며, 보이지 않는 장애물 구성에 대한 일반화 성능과 갑작스러운 제어 변경 감소를 확인했다.

시사점, 한계점

계층적 아키텍처를 통해 DQN의 높은 수준의 의사 결정과 TD3의 부드러운 제어를 결합하여 경로 계획 및 제어의 성능을 향상시킴.
실용적인 보상 형태 설계와 LiDAR 기반 안전 게이트를 통해 실제 환경에서의 안전성과 효율성을 확보.
ROS + Gazebo 환경에서의 구현 및 PathBench 메트릭을 사용한 평가를 통해 다양한 환경에서의 성능을 입증.
단일 알고리즘 및 규칙 기반 계획에 비해 향상된 성능을 보여줌.
샘플 효율성 향상을 통해 학습 시간 단축.
보이지 않는 장애물 구성에 대한 일반화 성능 향상.
코드 및 평가 스크립트 공개를 통한 재현 가능성 확보.
논문에서 구체적인 한계점에 대한 언급은 없음.
👍