Dans cet article, nous présentons DINO-VO, un système d'odométrie visuelle (VO) monoculaire robuste et généralisé qui exploite les atouts de modèles visuels tels que DINOv2. Pour pallier la résolution grossière des caractéristiques de DINOv2, nous proposons un détecteur de points clés adapté à DINOv2 et ajoutons des caractéristiques géométriques pour une localisation plus précise. Nous effectuons une estimation précise du mouvement de la caméra via une correspondance basée sur un transformateur et une couche d'estimation de pose différentiable, surpassant les méthodes existantes sur les jeux de données TartanAir, KITTI et EuRoC. Nous atteignons une grande efficacité avec une vitesse rapide de 72 images par seconde et une empreinte mémoire inférieure à 1 Go, et affichons des performances compétitives avec les systèmes Visual SLAM, même en conduite en extérieur.