Este artículo evalúa sistemáticamente la sinergia de los modelos de aprendizaje autosupervisado (SSL) de vanguardia para la detección de eventos acústicos (SED) y presenta directrices para la selección e integración óptimas de modelos. Proponemos un marco que combina diversas representaciones SSL (p. ej., BEATs, HuBERT y WavLM) mediante tres estrategias de fusión: integración de SSL individuales, fusión bimodal y agregación global. Los resultados experimentales del desafío DCASE 2023 Task 4 demuestran que la fusión bimodal (p. ej., CRNN+BEATs+WavLM) logra mejoras complementarias de rendimiento, siendo la combinación CRNN+BEATs la que logra el mejor rendimiento entre los modelos SSL individuales. Además, introducimos los cuadros delimitadores de eventos acústicos regularizados (nSEBBs), un método de posprocesamiento adaptativo que ajusta dinámicamente las predicciones de los límites de los eventos, mejorando la PSDS1 de los modelos SSL independientes hasta en un 4 %. Estos resultados destacan la compatibilidad y complementariedad de las arquitecturas SSL y proporcionan orientación para la fusión específica de la tarea y el diseño robusto de sistemas SED.