강화 학습 (RL)은 모방 학습 (IL)의 인과적 혼란과 분포 이동 문제를 완화할 수 있다. 하지만, RL을 end-to-end 자율 주행 (E2E-AD)에 적용하는 것은 훈련의 어려움 때문에 여전히 어려운 문제이며, IL이 학계와 산업계에서 주류 패러다임이다. 최근 모델 기반 강화 학습 (MBRL)은 신경 계획에서 유망한 결과를 보였지만, 일반적으로 원시 센서 데이터가 아닌 특권 정보를 입력으로 요구한다. 본 논문에서는 Raw2Drive라는 듀얼 스트림 MBRL 접근 방식을 설계하여 이러한 격차를 해소한다. 먼저, 특권 정보를 입력으로 사용하는 신경 플래너와 함께 보조 특권 세계 모델을 효율적으로 훈련한다. 그 후, 제안된 Guidance Mechanism을 통해 훈련된 원시 센서 세계 모델을 도입하여 롤아웃 동안 원시 센서 세계 모델과 특권 세계 모델 간의 일관성을 보장한다. 마지막으로, 원시 센서 세계 모델은 특권 세계 모델의 헤드에 내장된 사전 지식을 결합하여 원시 센서 정책의 훈련을 효과적으로 안내한다. Raw2Drive는 CARLA Leaderboard 2.0 및 Bench2Drive에서 유일한 RL 기반 end-to-end 방법이며, 최첨단 성능을 달성한다.