Nuestro objetivo es desarrollar un modelo de emparejamiento estéreo generalizable que funcione sin necesidad de ajustes específicos del conjunto de datos en un amplio rango de resoluciones y disparidades. Los enfoques iterativos de búsqueda local existentes alcanzan puntuaciones altas en un conjunto limitado de parámetros, pero carecen de consistencia global, lo que limita la generalización. Por otro lado, las arquitecturas de emparejamiento global son teóricamente más potentes, pero su elevado coste computacional y los requisitos de memoria las hacen poco prácticas. En este artículo, presentamos una novedosa arquitectura de emparejamiento global, denominada $S^2M^2$, que logra una precisión de vanguardia y una alta eficiencia sin depender del filtrado por volumen de costes ni de pilas de mejora profunda. Integra un transformador multirresolución para una respuesta robusta de largo alcance y una novedosa función de pérdida que centra la probabilidad en coincidencias factibles para estimar conjuntamente de forma más robusta la disparidad, la oclusión y la confianza. Alcanza un rendimiento de vanguardia en los parámetros Middlebury v3 y ETH3D, reconstruyendo detalles de alta calidad con una eficiencia competitiva.