Bài báo này thảo luận về việc tích hợp định vị và lập bản đồ đồng thời (SLAM) và theo dõi đa đối tượng (MOT), hai yếu tố đóng vai trò quan trọng trong lái xe tự động. SLAM và MOT thông thường được xử lý độc lập, dẫn đến độ chính xác hạn chế. Cụ thể, SLAM giả định một môi trường tĩnh, trong khi MOT thường dựa vào thông tin vị trí xe. Để giải quyết những vấn đề này, nhóm nghiên cứu đã đề xuất một SLAMMOT dựa trên LiDAR, xem xét nhiều mô hình chuyển động trong một nghiên cứu trước đây (IMM-SLAMMOT). Trong bài báo này, chúng tôi mở rộng phương pháp này sang một hệ thống dựa trên tầm nhìn và đề xuất một SLAMMOT trực quan. Mục tiêu của bài báo này là xác minh tính khả thi và lợi thế của SLAMMOT trực quan, xem xét nhiều mô hình chuyển động.