El diagnóstico mediante electrocardiograma (ECG) sigue siendo complejo debido a la escasez de datos etiquetados y al reto de capturar cambios rítmicos y morfológicos sutiles, pero clínicamente relevantes. En este artículo, presentamos el Autocodificador Enmascarado Regularizado Contrastivo (CREMA), un modelo fundamental para ECG de 12 derivaciones diseñado para aprender representaciones generalizables mediante preentrenamiento autosupervisado. CREMA combina el aprendizaje generativo con la regularización contrastiva mediante la pérdida del Autocodificador Enmascarado Regularizado Contrastivo (MAE) y utiliza la arquitectura del Transformador de Señal (SiT) para capturar tanto los detalles locales de la forma de onda como las dependencias temporales globales. Evaluamos CREMA en conjuntos de datos de referencia y en entornos clínicos reales, incluyendo escenarios de implementación con un cambio distributivo significativo. CREMA supera tanto a los modelos de referencia de aprendizaje supervisado como a los modelos de aprendizaje autosupervisado existentes en las evaluaciones de sondeo lineal y ajuste fino. Su robustez en entornos reales queda demostrada por su rendimiento superior en diversos dominios clínicos, especialmente en urgencias. Estos resultados demuestran que CREMA sirve como un modelo fundamental escalable y sólido para el diagnóstico de ECG, que respalda aplicaciones posteriores en entornos clínicos heterogéneos y de alto riesgo.