Notre objectif est de développer un modèle de correspondance stéréo généralisable, performant sans ajustement spécifique à chaque jeu de données, sur une large plage de résolutions et de disparités. Les approches de recherche locale itérative existantes obtiennent des scores élevés sur un nombre limité de benchmarks, mais manquent de cohérence globale, ce qui limite la généralisation. En revanche, les architectures de correspondance globale sont théoriquement plus puissantes, mais leur coût de calcul élevé et leurs besoins en mémoire les rendent peu pratiques. Dans cet article, nous présentons une nouvelle architecture de correspondance globale, appelée $S^2M^2$, qui offre une précision de pointe et une grande efficacité sans recourir au filtrage volumique des coûts ni aux piles d'amélioration profonde. Elle intègre un transformateur multi-résolution pour une réponse longue portée robuste et une nouvelle fonction de perte qui concentre la probabilité sur les correspondances réalisables afin d'estimer conjointement de manière plus robuste la disparité, l'occlusion et la confiance. Elle atteint des performances de pointe sur les benchmarks Middlebury v3 et ETH3D, reconstruisant des détails de haute qualité avec une efficacité compétitive.