En este artículo, presentamos una novedosa red multimodalidad y multitarea, y sus algoritmos de aprendizaje asociados, capaces de procesar alrededor de 12 modalidades de datos diferentes, incluyendo imágenes, videos, audios, textos, profundidad, nubes de puntos, series temporales, tablas, gráficos, líneas X, infrarrojos, IMU e hiperespectrales. El método propuesto proyecta datos de diferentes modalidades en un espacio de incrustación unificado aprovechando tokenizadores específicos de cada modalidad, arquitecturas de transformadores compartidos y mecanismos de atención cruzada. Aborda escenarios multimodalidad y multitarea integrando encabezados de tarea específicos de cada modalidad para diferentes tareas en cada modalidad. Proponemos una novedosa estrategia de preentrenamiento con cambio iterativo de modalidad para inicializar la red, y un algoritmo de aprendizaje que ofrece un equilibrio entre el aprendizaje conjunto completo para todas las modalidades y el aprendizaje de dos modalidades simultáneamente. Proporcionamos evaluaciones integrales de 25 conjuntos de datos de 12 modalidades, demostrando un rendimiento de última generación, validando la eficacia de la arquitectura propuesta, la estrategia de preentrenamiento y el aprendizaje adaptativo de múltiples tareas.