Este artículo analiza la integración de la localización y el mapeo simultáneos (SLAM) y el seguimiento multiobjeto (MOT), que desempeñan un papel crucial en la conducción autónoma. El SLAM y el MOT convencionales se procesan de forma independiente, lo que resulta en una precisión limitada. En concreto, el SLAM asume un entorno estático, mientras que el MOT tiende a depender de la información de la posición del vehículo. Para abordar estas cuestiones, el equipo de investigación propuso un SLAMMOT basado en LiDAR que considera múltiples modelos de movimiento en un estudio previo (IMM-SLAMMOT). En este artículo, extendemos este enfoque a un sistema basado en visión y proponemos un SLAMMOT visual. El objetivo de este artículo es verificar la viabilidad y las ventajas del SLAMMOT visual que considera múltiples modelos de movimiento.