Este artículo presenta el desarrollo de un modelo de videolenguaje para automatizar la interpretación de imágenes ecocardiográficas utilizadas para evaluar la función cardíaca. Para superar las limitaciones de los modelos de videolenguaje médicos existentes, que se basan en entradas de un solo fotograma (imagen) y, por lo tanto, presentan una precisión limitada en el diagnóstico de enfermedades que solo pueden diagnosticarse mediante el movimiento cardíaco, presentamos un modelo que procesa secuencias completas de video ecocardiográfico en cinco vistas estándar. Entrenado con 60.747 pares de video-informe ecocardiográfico, evaluamos la mejora en el rendimiento de recuperación gracias a la entrada de video y la compatibilidad con múltiples vistas, así como la contribución de varios modelos preentrenados.