Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DiffDecompose : décomposition par couche d'images alpha-composées via des transformateurs de diffusion

Created by
  • Haebom

Auteur

Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song

Contour

Cet article présente un nouveau défi : la décomposition couche par couche d'images alpha-composites. Nous constatons que les méthodes de décomposition d'images existantes peinent à traiter les artefacts d'occlusion dans les couches semi-transparentes ou transparentes, et nous abordons des défis tels que les dépendances a priori des masques, les hypothèses statiques sur les objets et l'insuffisance de données. Pour y parvenir, nous introduisons AlphaBlend, un jeu de données à grande échelle et de haute qualité pour la décomposition des couches transparentes et semi-transparentes, et présentons DiffDecompose, un cadre basé sur un transformateur de diffusion. DiffDecompose apprend les probabilités a posteriori des décompositions de couches possibles conditionnées par l'image d'entrée, les invites sémantiques et les types de fusion. Au lieu de régresser directement les masques alpha, nous effectuons une décomposition en contexte pour prédire une ou plusieurs couches sans supervision spécifique à chaque couche, et introduisons le clonage du codage de position des couches pour préserver les correspondances au niveau des pixels entre les couches. Nous validons l'efficacité de DiffDecompose par des expériences approfondies sur le jeu de données AlphaBlend proposé et le jeu de données LOGO accessible au public.

Takeaways, Limitations_

Takeaways:
Nous fournissons un nouvel ensemble de données, AlphaBlend, pour la décomposition couche par couche d'images alpha-composites.
Nous présentons un modèle DiffDecompose qui gère efficacement le phénomène d'occlusion des couches translucides/transparentes.
Les performances sont améliorées grâce aux techniques de décomposition en contexte et de clonage de codage de position de couche.
Il démontre l’applicabilité à diverses tâches du monde réel, telles que l’élimination des reflets translucides, la décomposition des cellules translucides et la décomposition de la verrerie.
Limitations:
Le code et l’ensemble de données actuels seront rendus publics une fois l’article accepté.
Une validation supplémentaire des performances de généralisation du modèle peut être nécessaire.
Une évaluation plus poussée des performances pour les scènes complexes ou différents types d’occlusion est nécessaire.
👍