Cet article explore la segmentation sémantique multimodale afin d'améliorer la précision de la segmentation dans les scènes complexes. Les méthodes existantes utilisent des modules de fusion de caractéristiques adaptés à des modalités spécifiques, ce qui limite la flexibilité des entrées et augmente le nombre de paramètres d'apprentissage. Pour y remédier, nous proposons StitchFusion, un framework de fusion modale simple mais efficace qui intègre directement des modèles pré-entraînés à grande échelle dans l'encodeur et la fusion de caractéristiques. Cette approche permet une fusion de caractéristiques multimodales et multi-échelles complète prenant en charge toutes les entrées modales visuelles. StitchFusion réalise l'intégration modale en partageant des informations visuelles multimodales lors de l'encodage. Pour améliorer l'échange d'informations entre les modalités, il introduit un module adaptateur multidirectionnel (MultiAdapter) permettant le transfert d'informations intermodales lors de l'encodage. En exploitant MultiAdapter pour propager les informations multi-échelles entre les encodeurs pré-entraînés, l'intégration des informations visuelles multimodales lors de l'encodage est obtenue. Les résultats expérimentaux démontrent que le modèle proposé atteint des performances de pointe sur quatre jeux de données de segmentation multimodale tout en minimisant le besoin de paramètres supplémentaires. De plus, l'intégration expérimentale du module de fusion de fonctionnalités (FFM) et du MultiAdapter existants démontre leurs propriétés complémentaires.