Dans cet article, nous démontrons qu'un transformateur de vision quantique (QViT) doté d'un mécanisme d'auto-attention quantique (QSA) surpasse le classificateur d'images biomédicales de pointe (SOTA) tout en utilisant 99,99 % de paramètres en moins. Nous remplaçons la couche d'auto-attention linéaire (SA) par un réseau de neurones quantiques paramétré (QNN) pour créer le mécanisme QSA, réduisant la taille des paramètres de O(n²) à O(n). Sur l'ensemble de données RetinaMNIST, QViT surpasse 13 des 14 méthodes SOTA, y compris les CNN et ViT, atteignant une précision de 56,5 %, soit 0,88 % de moins que le modèle de pointe MedMamba, qui utilise 14,5 millions de paramètres, mais utilise 99,99 % de paramètres en moins (1 000 contre 14,5 millions) et 89 % de GFLOP en moins. De plus, nous appliquons pour la première fois la distillation des connaissances (KD) des transformateurs de vision classiques aux transformateurs de vision quantiques à la classification d'images biomédicales. Nous démontrons que la QViT améliore l'efficacité des paramètres QSA tout en conservant des performances comparables à celles de la ViT classique sur huit jeux de données présentant diverses modalités. Les architectures à qubits élevés bénéficient davantage du pré-apprentissage KD, ce qui suggère une relation d'échelle entre les paramètres QSA et les effets KD. Ces résultats font de la QSA un choix d'architecture pratique pour l'analyse d'images biomédicales efficace en termes de paramètres.