Cet article évalue systématiquement la synergie des modèles d'apprentissage auto-supervisé (SSL) de pointe pour la détection d'événements acoustiques (SED) et présente des lignes directrices pour une sélection et une intégration optimales des modèles. Nous proposons un cadre combinant différentes représentations SSL (par exemple, BEATs, HuBERT et WavLM) via trois stratégies de fusion : l'intégration par incorporation SSL individuelle, la fusion bimodale et l'agrégation globale. Les résultats expérimentaux du défi DCASE 2023 Task 4 démontrent que la fusion bimodale (par exemple, CRNN+BEATs+WavLM) permet des améliorations de performances complémentaires, la combinaison CRNN+BEATs obtenant les meilleures performances parmi les modèles SSL individuels. De plus, nous introduisons les boîtes englobantes d'événements acoustiques régularisées (nSEBBs), une méthode de post-traitement adaptative qui ajuste dynamiquement les prédictions des limites d'événements, améliorant ainsi le PSDS1 des modèles SSL autonomes jusqu'à 4 %. Ces résultats soulignent la compatibilité et la complémentarité des architectures SSL et fournissent des orientations pour la fusion spécifique à la tâche et la conception de systèmes SED robustes.