본 논문은 자율 주행(AD)에서 강화 학습(RL)의 실용성을 높이기 위한 오픈 리서치 프레임워크인 V-Max를 소개한다. V-Max는 대규모 실험을 위해 설계된 하드웨어 가속 AD 시뮬레이터인 Waymax를 기반으로 구축되었으며, 다양한 AD 데이터셋의 빠른 시뮬레이션을 가능하게 하는 ScenarioNet의 접근 방식을 확장하여 사용한다. 기존 모방 학습(IL)의 한계점인 분포 이동 및 모방 간극 문제를 해결하기 위해 RL 기반의 일반화 가능한 자율 주행 정책을 개발하고자 하며, 표준화되고 효율적인 연구 프레임워크 부족으로 인해 AD에서 RL의 채택이 제한적인 현실에 대한 해결책을 제시한다.