Cet article propose Driver-Net, un nouveau cadre d'apprentissage profond qui évalue avec précision et rapidité l'état de préparation du conducteur afin de garantir un transfert de contrôle sûr dans les véhicules autonomes. Contrairement aux systèmes conventionnels de surveillance du conducteur basés sur la vision, qui se concentrent sur la posture de la tête ou le regard, Driver-Net utilise trois caméras pour synchroniser et capturer des repères visuels tels que la tête, les mains et la posture du conducteur. Il intègre les données spatio-temporelles grâce à une architecture à double chemin composée de blocs de contexte et de blocs de caractéristiques, et utilise une stratégie de fusion multimodale pour améliorer la précision des prédictions. Les résultats d'évaluation, utilisant un ensemble de données diversifié, collecté auprès du simulateur de conduite de l'Université de Leeds, démontrent une précision maximale de 95,8 % dans la classification de l'état de préparation du conducteur. Cela représente une amélioration significative par rapport aux méthodes existantes et souligne l'importance de la fusion multimodale et multivue. En tant que solution non invasive en temps réel, Driver-Net contribue significativement au développement de véhicules autonomes plus sûrs et plus fiables, conformes aux réglementations émergentes et aux futures normes de sécurité.