본 연구에서는 자율 주행을 일반화된 언어로 재개념화하고, 궤적 계획 작업을 다음 웨이포인트 예측으로 공식화합니다. Max-V1은 한 단계의 종단 간 자율 주행을 위한 새로운 프레임워크입니다. 이 프레임워크는 주행의 본질적인 순차성과 일치하는 단일 패스 생성 패러다임을 제시합니다. 이 접근 방식은 VLM(Vision-Language Model)의 생성적 능력을 활용하여 전방 카메라 입력으로부터 직접적인 종단 간 궤적 예측을 가능하게 합니다. 이 방법의 효율성은 통계적 모델링에서 파생된 원칙적인 감독 전략에 의해 뒷받침됩니다. 이는 잘 정의된 학습 목표를 제공하여 대규모 전문가 시연으로부터 모방 학습을 통해 복잡한 주행 정책을 마스터하는 데 매우 적합하게 만듭니다. 경험적으로, 이 방법은 nuScenes 데이터 세트에서 최고 수준의 성능을 달성하여 이전 기준선 대비 30% 이상 향상된 전반적인 개선을 제공합니다. 또한, 다양한 차량에서 획득한 교차 도메인 데이터 세트에서 우수한 일반화 성능을 보여 교차 차량 견고성과 적응성에 대한 주목할 만한 잠재력을 보여줍니다. 이러한 경험적 강점으로 인해 이 연구는 기본적인 주행 동작을 가능하게 하는 모델을 도입하여 더 강력한 자율 주행 에이전트 개발의 기초를 마련합니다. 코드는 출판과 함께 제공될 예정입니다.