PRIX (Plan from Raw Pixels)는 카메라 데이터만을 사용하여 자율 주행을 위한 안전한 경로를 예측하는 효율적인 엔드투엔드 아키텍처입니다. 기존의 대규모 모델, 고가의 LiDAR 센서, 계산량이 많은 BEV(Bird's Eye View) 특징 표현에 대한 의존성을 없애고, raw pixel 입력으로부터 직접 경로를 예측하는 생성형 계획 헤드와 시각적 특징 추출기를 활용합니다. 핵심 구성 요소인 Context-aware Recalibration Transformer (CaRT)는 다중 수준의 시각적 특징을 효과적으로 향상시켜 더욱 강력한 계획을 가능하게 합니다. NavSim과 nuScenes 벤치마크에서 최첨단 성능을 달성하며, 대규모 다중 모달 확산 계획 모델과 비슷한 성능을 보이면서 추론 속도와 모델 크기 측면에서 훨씬 효율적입니다. 따라서 실제 배포에 적합한 실용적인 솔루션으로 평가됩니다. 소스 코드는 공개될 예정입니다.