Cet article traite de l'intégration de la localisation et de la cartographie simultanées (SLAM) et du suivi multi-objets (MOT), deux technologies essentielles à la conduite autonome. Les SLAM et MOT conventionnels sont traités indépendamment, ce qui limite leur précision. Plus précisément, le SLAM repose sur un environnement statique, tandis que le MOT s'appuie généralement sur les informations de position du véhicule. Pour résoudre ces problèmes, l'équipe de recherche a proposé, dans une étude précédente (IMM-SLAMMOT), un SLAMMOT basé sur LiDAR prenant en compte plusieurs modèles de mouvement. Dans cet article, nous étendons cette approche à un système basé sur la vision et proposons un SLAMMOT visuel. L'objectif de cet article est de vérifier la faisabilité et les avantages d'un SLAMMOT visuel prenant en compte plusieurs modèles de mouvement.