Bài báo này giới thiệu V-Max, một khuôn khổ nghiên cứu mở được thiết kế để tăng tính thực tiễn của học tăng cường (RL) trong lái xe tự động (AD). Nó nhằm mục đích khắc phục Limitations (sự khác biệt về phân phối dữ liệu, khoảng cách mô phỏng) của học mô phỏng (IL) thông thường và việc thiếu một môi trường nghiên cứu chuẩn hóa và hiệu quả để áp dụng RL vào lái xe tự động. V-Max được xây dựng trên Waymax, một trình mô phỏng AD được tăng tốc phần cứng, được thiết kế cho các thí nghiệm quy mô lớn, và tận dụng phương pháp ScenarioNet để cho phép mô phỏng nhanh các tập dữ liệu AD đa dạng. Nó nhằm mục đích giảm thiểu chi phí kỹ thuật của các phương pháp dựa trên quy tắc bằng cách cho phép các chính sách lái xe tự động có thể khái quát hóa.