[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De $\mathcal{O}(n^{2})$ à $\mathcal{O}(n)$ Paramètres : Auto-attention quantique dans les transformateurs de vision pour la classification d'images biomédicales

Created by
  • Haebom

Auteur

Thomas Boucher, John Whittle, Evangelos B. Mazomenos

Contour

Dans cet article, nous démontrons qu'un transformateur de vision quantique (QViT) doté d'un mécanisme d'auto-attention quantique (QSA) surpasse le classificateur d'images biomédicales de pointe (SOTA) tout en utilisant 99,99 % de paramètres en moins. Nous remplaçons la couche d'auto-attention linéaire (SA) par un réseau de neurones quantiques paramétré (QNN) pour créer le mécanisme QSA, réduisant la taille des paramètres de O(n²) à O(n). Sur l'ensemble de données RetinaMNIST, QViT surpasse 13 des 14 méthodes SOTA, y compris les CNN et ViT, atteignant une précision de 56,5 %, soit 0,88 % de moins que le modèle de pointe MedMamba, qui utilise 14,5 millions de paramètres, mais utilise 99,99 % de paramètres en moins (1 000 contre 14,5 millions) et 89 % de GFLOP en moins. De plus, nous appliquons pour la première fois la distillation des connaissances (KD) des transformateurs de vision classiques aux transformateurs de vision quantiques à la classification d'images biomédicales. Nous démontrons que la QViT améliore l'efficacité des paramètres QSA tout en conservant des performances comparables à celles de la ViT classique sur huit jeux de données présentant diverses modalités. Les architectures à qubits élevés bénéficient davantage du pré-apprentissage KD, ce qui suggère une relation d'échelle entre les paramètres QSA et les effets KD. Ces résultats font de la QSA un choix d'architecture pratique pour l'analyse d'images biomédicales efficace en termes de paramètres.

Takeaways, Limitations

Takeaways:
Nous démontrons que QViT, en s'appuyant sur le mécanisme d'auto-attention quantique (QSA), peut atteindre des performances comparables à celles des modèles de classification d'images biomédicales de pointe existants avec extrêmement peu de paramètres.
Nous démontrons que la distillation des connaissances (KD) des transformateurs de vision classiques vers les transformateurs de vision quantiques est efficace pour améliorer les performances de QViT.
Présente la relation d'échelle entre les paramètres QSA et les effets KD.
Nous présentons l’aspect pratique du QSA en tant que nouvelle architecture pour l’analyse d’images biomédicales efficace en termes de paramètres.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation sur des ensembles de données autres que l'ensemble de données RetinaMNIST.
Des résultats d’application à des ensembles de données d’images biomédicales plus complexes et plus volumineux sont nécessaires.
Une analyse plus approfondie est nécessaire sur le coût de calcul et la praticité de la mise en œuvre du mécanisme QSA.
Les résultats expérimentaux avec des ensembles de données limités nécessitent une validation supplémentaire pour être généralisables.
👍