Anomalous Decision Discovery using Inverse Reinforcement Learning
Created by
Haebom
저자
Ashish Bastola, Mert D. Pese, Long Cheng, Jonathon Smereka, Abolfazl Razi
개요
본 논문은 자율 주행 자동차(AV)의 안전을 위협하는 비정상적인 행동을 감지하기 위한 새로운 이상 탐지 프레임워크인 Trajectory-Reward Guided Adaptive Pre-training (TRAP)을 제안합니다. 기존의 임계값 기반 방법이나 지도 학습 방식은 예측하지 못한 상황, 센서 노이즈, 가림 현상에 취약하여 안전에 심각한 문제를 야기할 수 있습니다. TRAP은 역강화학습(IRL)을 기반으로 순차적인 인지 데이터에서 잠재적인 운전 의도를 추론하여 강건한 이상 탐지를 가능하게 합니다. 특히, 노이즈에 대한 강건성과 미지의 상황에 대한 일반화 능력을 향상시키기 위해 보상과 최악의 경우 감독을 통해 시간적 신용 할당을 암묵적으로 학습하는 혁신적인 방법을 제시합니다. 가변 지평선 샘플링을 이용한 사전 훈련을 통해 결과 발생까지의 시간을 극대화하여 행동 편차를 조기에 감지합니다. 14,000개 이상의 시뮬레이션된 경로에 대한 실험 결과, 최첨단 성능(AUC 0.90, F1-score 82.2%)을 달성하여 기존의 지도 및 비지도 학습 기반 방법보다 Recall에서 39%, F1-score에서 12% 향상된 성능을 보였습니다. 다양한 노이즈 유형에 대한 강건성과 미지의 이상 유형에 대한 일반화 능력도 입증되었습니다. 소스 코드는 https://github.com/abastola0/TRAP.git 에서 공개될 예정입니다.