Sign In

BLIP-FusePPO: A Vision-Language Deep Reinforcement Learning Framework for Lane Keeping in Autonomous Vehicles

Created by
  • Haebom
Category
Empty

저자

Seyed Ahmad Hosseini Miangoleh, Amin Jalal Aghdasian, Farzaneh Abdollahi

개요

자율 차선 유지 (LK)를 위한 새로운 다중 모드 강화 학습 (RL) 프레임워크인 Bootstrapped Language-Image Pretraining-driven Fused State Representation in Proximal Policy Optimization (BLIP-FusePPO) 제안. 시각-언어 모델 (VLM)에 의해 생성된 의미론적 임베딩을 기하학적 상태, LiDAR 관측, Proportional-Integral-Derivative (PID) 기반 제어 피드백과 직접 융합하여 에이전트 관측 공간 내에서 사용. VLM의 고차원 장면 이해와 저차원 제어 및 공간 신호를 결합하여 주변 환경을 인식하고 이해하기 쉬운 운전 규칙 학습을 가능하게 함. 의미론적, 기하학적, 제어 인지 표현을 통합하여 정책 학습의 견고성을 향상. 의미론적 정렬, LK 정확도, 장애물 회피, 속도 조절을 포함하는 하이브리드 보상 함수를 사용하여 학습 효율성과 일반화 능력 향상. 의미론적 모델을 보상 형성에만 사용하는 기존 방식과 달리, 의미론적 특징을 상태 표현에 직접 임베딩하여 런타임 추론 비용 절감 및 의미론적 지침의 지속적인 활용 보장. 시뮬레이션 결과, 다양한 어려운 운전 상황에서 기존 비전 기반 및 다중 모드 RL 기반 모델보다 LK 안정성 및 적응성 우수.

시사점, 한계점

시사점:
VLM의 고차원 장면 이해와 저차원 제어 신호 융합을 통한 자율 주행 성능 향상.
의미론적 특징의 직접적인 상태 임베딩을 통해 런타임 비용 절감 및 지속적인 의미론적 지침 제공.
하이브리드 보상 함수를 통한 학습 효율성 및 일반화 능력 향상.
다양한 어려운 운전 상황에서 기존 모델 대비 우수한 LK 안정성 및 적응성.
코드 공개를 통한 연구 재현성 확보.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약 정보만 제공됨)
👍