Este artículo evalúa sistemáticamente nueve modelos de vanguardia de eliminación de ruido profundo (p. ej., Neighbor2Neighbor, Blind2Unblind, DSPNet, etc.) aplicados al preprocesamiento de imágenes de sonar para abordar el problema de degradación de la precisión causado por patrones de ruido complejos como moteado, eco y ruido no gaussiano en la detección de objetos de robots submarinos para navegación autónoma y exploración de recursos. Utilizando cinco conjuntos de datos de sonar públicos y cuatro algoritmos representativos de detección de objetos (YOLOX, Faster R-CNN, SSD300 y SSDMobileNetV2), evaluamos la efectividad de aplicar modelos de eliminación de ruido de imágenes ópticas a datos de sonar, el modelo óptimo para el ruido de sonar y si la eliminación de ruido mejora la precisión de la detección en tuberías reales. Los resultados experimentales muestran que la eliminación de ruido generalmente mejora el rendimiento de la detección, pero los efectos varían debido al sesgo inherente de cada modelo para los tipos de ruido. Por lo tanto, proponemos un marco de fusión de eliminación de ruido de múltiples fuentes con supervisión cruzada, en el que las salidas de múltiples eliminadores de ruido se supervisan mutuamente a nivel de píxel para producir imágenes más limpias.