Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De l'éditeur à l'estimateur de géométrie dense

Created by
  • Haebom

Auteur

JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao

Contour

S'appuyant sur des recherches antérieures sur l'utilisation d'informations a priori visuelles dans des modèles génératifs texte-image (T2I) pré-entraînés pour la prédiction dense, cet article émet l'hypothèse que les modèles d'édition d'images peuvent constituer une base plus adaptée à l'affinement de l'estimation de la géométrie dense que les modèles génératifs T2I. Pour le vérifier, nous analysons systématiquement les comportements d'affinement des modèles génératifs et d'édition, démontrant que le modèle d'édition, grâce à ses informations a priori structurelles uniques, atteint une convergence plus stable et des performances supérieures. Sur la base de ces résultats, nous proposons FE2E , un nouveau cadre qui applique des modèles d'édition avancés basés sur l'architecture Diffusion Transformer (DiT) à la prédiction de la géométrie dense . FE2E reconstruit la perte de correspondance de flux d'origine du modèle d'édition comme objectif d'apprentissage de la « vitesse cohérente », résout les conflits de précision grâce à la quantification logarithmique et exploite le mécanisme d'attention globale de DiT pour estimer simultanément la profondeur et les normales en un seul passage. Nous obtenons des améliorations de performances remarquables pour l'estimation de la profondeur monoculaire et normale à zéro tir sur plusieurs ensembles de données sans augmentation massive des données, démontrant notamment une amélioration des performances de plus de 35 % sur l'ensemble de données ETH3D et surpassant la série DepthAnything entraînée sur 100 fois plus de données.

Takeaways, Limitations

Takeaways:
Nous démontrons expérimentalement que les modèles d’édition d’images constituent une base plus adaptée aux tâches de prédiction denses telles que l’estimation de géométrie dense.
Nous présentons un cadre FE2E qui améliore considérablement la profondeur monoculaire à tir nul et les performances d'estimation normale en utilisant efficacement un modèle d'édition basé sur Diffusion Transformer.
Il montre la possibilité d’obtenir d’excellentes performances même sans grandes quantités de données.
Une méthode efficace pour l’estimation simultanée de la profondeur et de la normale en un seul passage est présentée.
Limitations:
Les améliorations des performances de FE2E peuvent être limitées à des ensembles de données spécifiques.
La vérification des performances de généralisation est nécessaire pour d’autres types de tâches de prédiction dense.
Dépendance à l'architecture du transformateur de diffusion. L'évolutivité vers d'autres architectures doit être étudiée.
👍