Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Améliorer la correspondance stéréo omnidirectionnelle avec un modèle de base de profondeur pré-entraîné

Created by
  • Haebom

Auteur

Jannik Endres, Oliver Hahn, Charles Corbière , Simone Schaub-Meyer, Stefan Roth, Alexandre Alahi

Contour

Cet article propose DFI-OmniStereo, une nouvelle méthode de perception de profondeur omnidirectionnelle. Elle vise à générer des cartes de profondeur haute résolution grâce à une estimation stéréoscopique peu coûteuse basée sur des caméras omnidirectionnelles. Pour pallier les limites des méthodes existantes, nous utilisons un modèle de base pré-entraîné à grande échelle pour réaliser une estimation de profondeur monoculaire relative au sein d'une architecture d'appariement stéréoscopique basée sur l'optimisation itérative. Plus précisément, nous utilisons les caractéristiques de profondeur monoculaire relative via une stratégie d'apprentissage en deux étapes pour effectuer un réglage fin invariant à l'échelle. Sur le jeu de données réel Helvipad, nous obtenons des résultats de pointe, réduisant l'erreur d'échelle moyenne (MAE) de disparité d'environ 16 % par rapport à la méthode stéréoscopique omnidirectionnelle la plus performante.

Takeaways, Limitations

Takeaways:
Nous avons amélioré la précision de la correspondance stéréo omnidirectionnelle en exploitant un modèle de base pré-entraîné à grande échelle.
Une nouvelle stratégie de formation en deux étapes utilise efficacement les informations de profondeur monoculaire relative.
Nous avons obtenu des résultats qui ont dépassé les performances de pointe précédentes sur l'ensemble de données Helvipad.
Cela pourrait apporter des avancées significatives à la robotique mobile, qui nécessite une perception de la profondeur omnidirectionnelle.
Limitations:
Une évaluation plus approfondie est nécessaire pour déterminer dans quelle mesure la méthode proposée se généralise à un ensemble de données spécifique (Helvipad).
Il est nécessaire d’améliorer encore la robustesse dans différents environnements, plages de profondeur et conditions d’éclairage.
Il existe un manque d’analyse sur les coûts de calcul et le potentiel de traitement en temps réel.
👍