Este artículo propone REMOTE, un novedoso marco unificado para la extracción de relaciones multimodales (MRE). REMOTE extrae simultáneamente relaciones intramodales e intermodales entre entidades de texto y objetos visuales mediante el uso del transporte óptimo multinivel y una combinación de expertos. Supera la extracción de una sola relación y la duplicación computacional inherente a los métodos existentes, y selecciona dinámicamente las características de interacción óptimas para diversos tripletes de relaciones mediante un mecanismo de combinación de expertos. Además, introduce un módulo de fusión de transporte óptimo multinivel que conserva las ventajas de la codificación multicapa sin perder información de bajo nivel, generando representaciones más expresivas. Evaluamos la eficacia de REMOTE en un nuevo conjunto de datos, UMRE, y logramos un rendimiento de vanguardia en los conjuntos de datos MRE existentes. El código fuente está disponible en GitHub.