Sign In

Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Daniel Flogel, Marcos Gomez Villafane, Joshua Ransiek, Soren Hohmann

개요

본 논문은 보행자 밀집 환경에서 자율 이동 로봇의 안전한 탐색과 적절한 인간 상호 작용을 위한 새로운 접근법을 제시합니다. 심층 강화 학습(DRL)을 사용하여 사회적으로 통합된 로봇 행동을 가능하게 하지만, 새로운 상황이나 섭동 상황에서 정책의 불확실성을 나타내는 것은 여전히 어려운 문제입니다. 의사결정의 알려지지 않은 불확실성은 충돌이나 인간의 불편함으로 이어질 수 있으며, 안전하고 위험을 인식하는 탐색이 여전히 미해결 문제인 이유 중 하나입니다. 본 연구는 알레아토릭, 에피스테믹, 예측 불확실성 추정을 DRL 탐색 프레임워크에 통합하여 정책 분포 불확실성을 추정하는 새로운 방법을 제시합니다. 관측 의존 분산(ODV)과 드롭아웃을 근접 정책 최적화(PPO) 알고리즘에 통합하고, 다양한 유형의 섭동에 대해 심층 앙상블과 몬테카를로 드롭아웃(MC-dropout)의 불확실성 추정 능력을 비교합니다. 불확실한 의사결정 상황에서는 로봇의 사회적 행동을 보수적인 충돌 회피로 변경하는 것을 제안합니다. 실험 결과, PPO에서 ODV와 드롭아웃을 사용하면 훈련 성능이 향상되고 훈련 시나리오가 일반화에 영향을 미침을 보여줍니다. 또한 MC-dropout은 섭동에 더 민감하며 불확실성 유형과 섭동을 더 잘 연관시킵니다. 안전한 행동 선택을 통해 로봇은 섭동 환경에서 충돌을 줄이고 탐색할 수 있습니다.

시사점, 한계점

시사점:
DRL 기반 자율 이동 로봇의 안전성 향상을 위한 새로운 불확실성 추정 및 안전 행동 선택 전략 제시.
ODV와 드롭아웃을 PPO에 통합하여 훈련 성능 향상.
MC-dropout이 섭동에 대한 민감도가 높고 불확실성 유형과 섭동 간의 상관관계를 잘 나타냄을 확인.
보수적인 충돌 회피 전략을 통해 섭동 환경에서 로봇의 안전한 탐색 가능성 증명.
한계점:
제한된 훈련 및 실험 환경. 다양한 환경 및 상황에서의 일반화 성능 검증 필요.
실제 세계 적용을 위한 추가적인 검증과 안전성 평가 필요.
특정 유형의 섭동에 대한 집중으로 다른 유형의 섭동에 대한 일반화 성능은 추가 연구가 필요함.
👍