Este artículo presenta un método para entrenar un codificador basado en Conformer que genera incrustaciones únicas para pequeños segmentos de audio mediante un marco de aprendizaje contrastivo autosupervisado. Al aprovechar la capacidad de Conformer para capturar interacciones locales y globales, logramos un rendimiento de vanguardia en tareas de recuperación de audio, generando incrustaciones a partir de tan solo 3 segundos de audio. Además, mantenemos este rendimiento de vanguardia a la vez que somos prácticamente inmunes a la desalineación temporal y otros artefactos de audio, como ruido, reverberación y estiramiento temporal extremo. Entrenamos y probamos nuestro modelo en conjuntos de datos públicos de diversos tamaños, y también publicamos el código y el modelo para garantizar la reproducibilidad de nuestros resultados.