En este artículo, presentamos DINO-VO, un sistema robusto y generalizado de odometría visual (VO) monocular que aprovecha las ventajas de modelos visuales como DINOv2. Para abordar la baja resolución de características de DINOv2, proponemos un detector de puntos clave adaptado a DINOv2 y añadimos características geométricas para una localización más precisa. Realizamos una estimación precisa del movimiento de la cámara mediante correspondencia basada en transformadores y una capa de estimación de pose diferenciable, superando así los métodos existentes en los conjuntos de datos TartanAir, KITTI y EuRoC. Logramos una alta eficiencia con una velocidad de 72 FPS y una memoria inferior a 1 GB, y mostramos un rendimiento competitivo con sistemas Visual SLAM, incluso en situaciones de conducción al aire libre.