Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article présente une nouvelle approche pour la restauration d'images intégrée, une tâche critique en vision de bas niveau. Les méthodes existantes sont soit spécifiques à une tâche, soit basées sur des jeux de données appariés pour l'apprentissage, ce qui entraîne de faibles performances de généralisation et des contraintes d'ensemble fermé. Pour résoudre ces problèmes, nous proposons une approche intégrée, sans jeu de données, utilisant un échantillonnage probabiliste postérieur récursif avec un modèle de diffusion latente pré-entraîné. La méthode intègre un modèle de compréhension multimodal pour fournir des informations sémantiques a priori au modèle génératif dans des conditions indépendantes de la tâche, utilise des modules légers pour aligner les entrées dégradées sur les préférences génératives du modèle de diffusion, et utilise un raffinement récursif pour l'échantillonnage probabiliste postérieur. Des expériences approfondies démontrent que la méthode proposée surpasse les méthodes de pointe, validant ainsi son efficacité et sa robustesse. Le code et les données sont disponibles à l' adresse https://github.com/AMAP-ML/LD-RPS .
Résout les limitations des méthodes existantes, telles que la conception personnalisée pour des tâches spécifiques et la dépendance à des ensembles de données appariés.
◦
Une approche unifiée de restauration d’image sans ensembles de données est présentée.
◦
Amélioration des performances grâce à l'exploitation de modèles de diffusion latente pré-entraînés et de modèles de compréhension multimodaux.
◦
Amélioration des performances de restauration grâce à un échantillonnage probabiliste postérieur récursif.
◦
Amélioration de la robustesse et des performances de généralisation contre divers types de dégradation.
•
Limitations:
◦
Peut dépendre des performances du modèle de diffusion latente pré-entraîné.
◦
Les performances d’un modèle de compréhension multimodal peuvent avoir un impact sur les performances globales du système.
◦
Dégradation potentielle des performances pour certains types de dégradation (expérimentation et analyse supplémentaires requises).
◦
Une validation supplémentaire des performances de généralisation dans les applications du monde réel est nécessaire.