PRIX (Plan a partir de Píxeles Sin Procesar) es una arquitectura integral y eficiente que predice rutas seguras para la conducción autónoma utilizando únicamente datos de cámara. Elimina la dependencia de modelos a gran escala existentes, costosos sensores LiDAR y representaciones de características BEV (Vista Aérea) de alto consumo computacional. Además, utiliza un cabezal de planificación generativo y un extractor de características visuales que predicen rutas directamente a partir de la información de píxeles sin procesar. El componente principal, el Transformador de Recalibración Consciente del Contexto (CaRT), mejora eficazmente las características visuales multinivel para permitir una planificación más robusta. Alcanza un rendimiento de vanguardia en las pruebas de referencia de NavSim y nuScenes, y es comparable a los modelos de planificación de difusión multimodal a gran escala, además de ser mucho más eficiente en términos de velocidad de inferencia y tamaño del modelo. Por lo tanto, se evalúa como una solución práctica y adecuada para su implementación en el mundo real. El código fuente se publicará próximamente.