Este artículo destaca la creciente preocupación sobre la coherencia de los modelos de redes neuronales a gran escala con los valores humanos al implementarse en situaciones de alto riesgo. Proponemos la interpretabilidad, en particular los enfoques mecanicistas, como solución, argumentando que debería considerarse un principio de diseño para la alineación, en lugar de una mera herramienta de diagnóstico. Mientras que los métodos de análisis post-hoc como LIME y SHAP ofrecen explicaciones intuitivas, pero solo correlacionales, las técnicas mecanicistas como el trazado de circuitos y la aplicación de parches activos proporcionan información causal sobre errores internos, incluyendo inferencias engañosas o inconsistentes, que métodos conductuales como RLHF, pruebas de ataques adversarios e IA constitucional pueden pasar por alto. Sin embargo, la interpretabilidad se enfrenta a desafíos como la escalabilidad, la incertidumbre epistemológica y la discrepancia entre las representaciones aprendidas y los conceptos humanos. Por lo tanto, concluimos que el progreso hacia una IA segura y fiable depende de que la interpretabilidad sea un objetivo primordial de la investigación y el desarrollo de la IA, garantizando que los sistemas no solo sean eficaces, sino también auditables, transparentes y alineados con la intención humana.