Este artículo propone Driver-Net, un novedoso marco de aprendizaje profundo que evalúa con precisión y puntualidad la preparación del conductor para garantizar una transferencia segura del control en vehículos autónomos. A diferencia de los sistemas convencionales de monitorización del conductor basados en la visión, que se centran en la postura de la cabeza o la mirada, Driver-Net utiliza tres cámaras para sincronizar y capturar señales visuales como la cabeza, las manos y la postura del conductor. Integra datos espaciotemporales mediante una arquitectura de doble ruta compuesta por bloques de contexto y bloques de características, y emplea una estrategia de fusión multimodal para mejorar la precisión de la predicción. Los resultados de la evaluación, utilizando un conjunto de datos diverso recopilado del Simulador de Conducción de la Universidad de Leeds, demuestran una precisión máxima del 95,8 % en la clasificación de la preparación del conductor. Esto representa una mejora significativa con respecto a los métodos existentes y destaca la importancia de la fusión multimodal y multivista. Como solución no invasiva en tiempo real, Driver-Net contribuye significativamente al desarrollo de vehículos autónomos más seguros y fiables, cumpliendo con las normativas emergentes y los futuros estándares de seguridad.