Le diagnostic par électrocardiogramme (ECG) reste complexe en raison du manque de données étiquetées et de la difficulté à capturer des modifications rythmiques et morphologiques subtiles, mais cliniquement pertinentes. Dans cet article, nous présentons le modèle CREMA (Contrastive Regularized Masked Autoencoder), un modèle fondamental pour les ECG à 12 dérivations conçu pour apprendre des représentations généralisables grâce à un pré-apprentissage auto-supervisé. CREMA combine l'apprentissage génératif et la régularisation contrastive via la perte du Contrastive Regularized Masked Autoencoder (MAE) et utilise l'architecture SiT (Signal Transformer) pour capturer à la fois les détails locaux de la forme d'onde et les dépendances temporelles globales. Nous évaluons CREMA sur des jeux de données de référence et en situation clinique réelle, y compris des scénarios de déploiement présentant un décalage distributionnel significatif. CREMA surpasse les modèles de base d'apprentissage supervisé et les modèles d'apprentissage auto-supervisé existants dans les évaluations de sondage linéaire et de réglage fin. Sa robustesse en situation réelle est démontrée par ses performances supérieures dans divers domaines cliniques, notamment en soins d'urgence. Ces résultats démontrent que CREMA sert de modèle fondamental évolutif et robuste pour le diagnostic ECG, prenant en charge les applications en aval dans des contextes cliniques hétérogènes et à haut risque.