# OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving

### 저자

Zhenguo Zhang, Haohan Zheng, Yishen Wang, Le Xu, Tianchen Deng, Xuefeng Chen, Qu Chen, Bo Zhang, Wuxiong Huang

### 💡 개요

본 논문은 자율 주행 분야에서 비전-언어 모델(VLM)의 신뢰성 문제, 특히 객체 환각 현상을 해결하기 위해 OmniDrive-R1이라는 새로운 VLM 프레임워크를 제안합니다. OmniDrive-R1은 강화 학습 기반의 시각적 접지 기능을 활용하여 인식과 추론 단계를 통합하는 interleaved Multi-modal Chain-of-Thought(iMCoT) 메커니즘을 도입합니다. 이를 통해 데이터 효율성을 높이고 실시간 상호 모달 일관성을 강화하여 추론 정확도를 크게 향상시킵니다.

### 🔑 시사점 및 한계

- **강화 학습 기반 시각적 접지를 통한 신뢰성 향상:** 객체 환각과 같은 VLM의 근본적인 신뢰성 문제를 강화 학습을 통해 해결하고, 모델이 중요 영역에 집중하도록 유도하여 정확도를 높입니다.

- **데이터 효율적인 학습 및 실시간 일관성 확보:** 고비용의 밀집된 위치 정보 레이블 없이도 학습이 가능하며, 텍스트 추론과 시각적 초점 간의 실시간 상호 모달 일관성을 강제하여 안정성을 높입니다.

- **향후 연구 과제:** 제안된 방법론이 다양한 복잡한 자율 주행 시나리오에서 얼마나 견고하게 작동하는지에 대한 추가적인 검증 및 실제 환경에서의 성능 최적화가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2512.14044)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).