[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DINO-VO : une odométrie visuelle basée sur les caractéristiques s'appuyant sur un modèle de fondation visuelle

Created by
  • Haebom

Auteur

Maulana Bisyir Azhari, David Hyunchul Shim

Contour

Dans cet article, nous présentons DINO-VO, un système d'odométrie visuelle (VO) monoculaire robuste et généralisé qui exploite les atouts de modèles visuels tels que DINOv2. Pour pallier la résolution grossière des caractéristiques de DINOv2, nous proposons un détecteur de points clés adapté à DINOv2 et ajoutons des caractéristiques géométriques pour une localisation plus précise. Nous effectuons une estimation précise du mouvement de la caméra via une correspondance basée sur un transformateur et une couche d'estimation de pose différentiable, surpassant les méthodes existantes sur les jeux de données TartanAir, KITTI et EuRoC. Nous atteignons une grande efficacité avec une vitesse rapide de 72 images par seconde et une empreinte mémoire inférieure à 1 Go, et affichons des performances compétitives avec les systèmes Visual SLAM, même en conduite en extérieur.

Takeaways, Limitations

Takeaways:
Améliorer la robustesse et les performances de généralisation du VO monoculaire en exploitant des modèles visuels tels que DINOv2.
Nous présentons un nouveau détecteur de points clés et une stratégie de combinaison de fonctionnalités pour compléter les fonctionnalités brutes de DINOv2.
Estimation précise du mouvement de la caméra via une correspondance basée sur un transformateur et une estimation de pose différentiable.
Atteint des performances et une efficacité supérieures aux méthodes existantes sur les ensembles de données TartanAir, KITTI et EuRoC.
Performances compétitives avec les systèmes Visual SLAM dans les scénarios de conduite en extérieur.
Limitations:
Limitée à l'évaluation des performances sur un ensemble de données spécifique, la généralisation des performances sur d'autres types d'ensembles de données nécessite une validation supplémentaire.
Manque d’analyse des problèmes et de la stabilité qui peuvent survenir lors de l’application à des systèmes robotiques réels.
Manque de présentation claire de la méthode proposée __T17912_____ et des orientations futures de la recherche.
👍