Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving
Created by
Haebom
저자
Li Zeqiao, Wang Yijing, Wang Haoyu, Li Zheng, Li Peng, Zuo zhiqiang, Hu Chuan
개요
본 논문은 자율 주행에서 안전한 탐색과 분포 이동 문제를 해결하기 위해, 최소한의 인간 개입으로 인간-AI 협업을 효율적으로 수행하는 새로운 전략인 Confidence-guided Human-AI Collaboration (C-HAC)을 제시합니다. C-HAC은 Distributional Soft Actor-Critic (DSAC) 프레임워크 내에서 분포적 근사값 전파 방법을 사용하여 인간의 의도를 나타내는 수익 분포를 활용함으로써 빠르고 안정적인 학습을 달성합니다. 학습된 인간 유도 정책과 누적 보상을 극대화하는 자기 학습 정책을 통합하는 공유 제어 메커니즘을 통해 에이전트는 독립적으로 탐색하고 인간의 안내를 넘어 성능을 지속적으로 향상시킵니다. 또한, 신뢰도 기반 개입 함수를 통해 인간 유도 정책과 자기 학습 정책 간의 동적 전환을 가능하게 하는 정책 신뢰도 평가 알고리즘을 제시합니다. 다양한 주행 시나리오에 대한 광범위한 실험과 복잡한 교통 상황에서의 실제 도로 테스트를 통해 C-HAC이 안전성, 효율성 및 전반적인 성능 측면에서 기존 방법보다 우수하며 최첨단 결과를 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
최소한의 인간 개입으로 효율적인 인간-AI 협업을 가능하게 하는 새로운 C-HAC 전략 제시.
◦
DSAC 프레임워크와 분포적 근사값 전파 방법을 활용하여 빠르고 안정적인 학습 달성.
◦
인간 유도 정책과 자기 학습 정책의 효과적인 통합을 위한 공유 제어 메커니즘 구현.
◦
신뢰도 기반 개입 함수를 통한 안전하고 효율적인 정책 전환.
◦
다양한 시나리오와 실제 도로 테스트를 통한 성능 검증 및 최첨단 결과 달성.
◦
공개된 코드 및 비디오를 통한 재현성 확보.
•
한계점:
◦
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요. 다양한 환경 및 상황에 대한 적용성 검증 필요.