Cet article propose REMOTE, un nouveau cadre unifié pour l'extraction de relations multimodales (MRE). REMOTE extrait simultanément les relations intra- et intermodales entre entités textuelles et objets visuels en exploitant le transport optimal multiniveau et un mélange d'experts. Il évite l'extraction de relations uniques et la duplication des calculs inhérents aux méthodes existantes, et sélectionne dynamiquement les caractéristiques d'interaction optimales pour différents triplets de relations grâce à un mécanisme de mélange d'experts. De plus, il introduit un module de fusion de transport optimal multiniveau, préservant les avantages du codage multicouche sans perte d'informations de bas niveau, générant ainsi des représentations plus expressives. Nous évaluons l'efficacité de REMOTE sur un nouvel ensemble de données, UMRE, et atteignons des performances de pointe sur les ensembles de données MRE existants. Le code source est disponible sur GitHub.