Dans cet article, nous proposons un mécanisme d'attention différentielle intégrant une opération double softmax et des coefficients différentiels affinés pour résoudre le mécanisme d'attention inefficace de l'architecture Transformer standard, qui est Limitations dans l'apprentissage audio auto-supervisé. Le modèle ASDA proposé atteint des performances de pointe (SOTA) dans les tâches de classification audio, de découverte de mots-clés et de classification des sons environnementaux sur divers benchmarks tels que AS-2M, AS20K, SPC-2 et ESC-50. Cela prouve l'efficacité du modèle ASDA et suggère son applicabilité plus large.