본 논문은 모델 기반 강화 학습(MBRL)을 자율 주행에 적용하는 새로운 방법인 InDRiVE를 제안합니다. 기존 MBRL 방식은 특정 작업에 맞춰 설계된 외재적 보상에 의존하여 새로운 작업이나 환경으로의 일반화가 어려운 한계를 가지고 있습니다. InDRiVE는 Dreamer 기반 MBRL 프레임워크 내에서 내재적이고 불일치 기반의 보상을 활용하여 이 문제를 해결합니다. 세계 모델의 앙상블을 훈련하여 에이전트가 특정 작업 피드백 없이 환경의 불확실성이 높은 영역을 능동적으로 탐색하도록 합니다. 이를 통해 작업과 무관한 잠재적 표현을 얻어, 차선 유지 및 충돌 회피와 같은 하류 주행 작업에 대한 빠른 제로샷 또는 퓨샷 미세 조정이 가능해집니다. 실험 결과, InDRiVE는 DreamerV2 및 DreamerV3 기준 모델보다 훨씬 적은 훈련 단계에도 불구하고 더 높은 성공률과 더 적은 위반 사항을 달성했습니다. 이는 순수한 내재적 탐색이 강력한 차량 제어 행동을 학습하는 데 효과적임을 보여주며, 더욱 확장 가능하고 적응력 있는 자율 주행 시스템을 위한 길을 열어줍니다.