Sign In

InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model

Created by
  • Haebom
Category
Empty

저자

Feeza Khan Khanzada, Jaerock Kwon

개요

본 논문은 모델 기반 강화 학습(MBRL)을 자율 주행에 적용하는 새로운 방법인 InDRiVE를 제안합니다. 기존 MBRL 방식은 특정 작업에 맞춰 설계된 외재적 보상에 의존하여 새로운 작업이나 환경으로의 일반화가 어려운 한계를 가지고 있습니다. InDRiVE는 Dreamer 기반 MBRL 프레임워크 내에서 내재적이고 불일치 기반의 보상을 활용하여 이 문제를 해결합니다. 세계 모델의 앙상블을 훈련하여 에이전트가 특정 작업 피드백 없이 환경의 불확실성이 높은 영역을 능동적으로 탐색하도록 합니다. 이를 통해 작업과 무관한 잠재적 표현을 얻어, 차선 유지 및 충돌 회피와 같은 하류 주행 작업에 대한 빠른 제로샷 또는 퓨샷 미세 조정이 가능해집니다. 실험 결과, InDRiVE는 DreamerV2 및 DreamerV3 기준 모델보다 훨씬 적은 훈련 단계에도 불구하고 더 높은 성공률과 더 적은 위반 사항을 달성했습니다. 이는 순수한 내재적 탐색이 강력한 차량 제어 행동을 학습하는 데 효과적임을 보여주며, 더욱 확장 가능하고 적응력 있는 자율 주행 시스템을 위한 길을 열어줍니다.

시사점, 한계점

시사점:
내재적 보상 기반 MBRL을 사용하여 자율 주행에서의 데이터 효율성 및 강건성 향상 가능성 제시.
작업과 무관한 잠재적 표현 학습을 통한 제로샷/퓨샷 학습 가능성 증명.
Dreamer 기반 모델보다 적은 훈련 단계로 더 높은 성능 달성.
순수한 내재적 탐색의 효과성을 실험적으로 입증.
더욱 확장 가능하고 적응력 있는 자율 주행 시스템 개발 가능성 제시.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 환경 및 작업에 대한 확장성 및 범용성에 대한 추가 연구 필요.
세계 모델의 앙상블 크기 및 구조에 대한 최적화 연구 필요.
실제 자율 주행 환경 적용 시 발생할 수 있는 문제점 및 해결 방안에 대한 추가 연구 필요.
👍