Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploration des corrélations spatiales-angulaires non locales avec un cadre hybride Mamba-Transformer pour la super-résolution en champ lumineux

Created by
  • Haebom

Auteur

Haosong Liu, Xiancheng Zhu, Huanqiang Zeng, Jianqing Zhu, Jiuwen Cao, Junhui Hou

Contour

Cet article présente une amélioration de la méthode Mamba, qui bénéficie d'une modélisation de l'information à longue portée et d'une complexité linéaire, afin d'optimiser les coûts de calcul et les performances en super-résolution d'images légères (LFSR). Pour résoudre les problèmes d'extraction de caractéristiques inefficaces et redondantes des stratégies de balayage multidirectionnel conventionnelles appliquées aux données LF complexes, cet article conçoit un bloc Mamba simple sous-espace (SSMB) basé sur la stratégie de balayage simple sous-espace (Sub-SS), permettant une extraction de caractéristiques plus efficace et précise. De plus, pour pallier les limites de l'espace d'état dans la préservation des informations d'angle spatial et de disparité, une stratégie de modélisation en deux étapes est proposée pour explorer plus en détail les corrélations d'angle spatial non locales. Dans la première étape, le bloc Mamba sous-espace résiduel spatial-angulaire (SA-RSMB) est utilisé pour extraire les caractéristiques d'angle spatial peu profondes. Dans la deuxième étape, une architecture parallèle à double branche combinant le bloc Mamba plan épipolaire (EPMB) et le bloc transformateur plan épipolaire (EPTB) est utilisée pour améliorer les caractéristiques épipolaires profondes. Sur la base de ces modules et stratégies, nous proposons LFMT, un framework hybride Mamba-Transformer qui intègre les atouts des modèles Mamba et Transformer. LFMT permet une exploration complète de l'information dans les domaines spatial, angulaire et épipolaire. Les résultats expérimentaux démontrent que LFMT surpasse significativement les méthodes LFSR de pointe existantes tout en maintenant une faible complexité de calcul sur des jeux de données LF réels et synthétiques.

Takeaways, Limitations

Takeaways:
En améliorant l’efficacité de la méthode basée sur Mamba, nous réduisons le coût de calcul du LFSR et améliorons ses performances.
La stratégie Sub-SS et SSMB permettent une extraction de fonctionnalités plus efficace et plus précise.
La stratégie de modélisation en deux étapes améliore la préservation des informations spatiales, angulaires et de parallaxe.
Nous proposons un framework LFMT qui combine les points forts de Mamba et de Transformer, ce qui se traduit par des performances améliorées.
Nous obtenons des performances qui surpassent les techniques de pointe existantes sur des ensembles de données réels et synthétiques.
Limitations:
Une validation supplémentaire des performances de généralisation de la méthode proposée peut être nécessaire.
L'optimisation peut avoir été effectuée pour un ensemble de données spécifique, et une évaluation des performances sur d'autres types de données LF est nécessaire.
Des analyses plus approfondies sont nécessaires pour déterminer l’ampleur de la réduction de la complexité informatique et son efficacité dans les applications pratiques.
Il peut y avoir un manque d'explication détaillée des paramètres de la stratégie Sub-SS et de discussion des méthodes d'optimisation.
👍