Este artículo explora la segmentación semántica multimodal para mejorar la precisión de la segmentación en escenas complejas. Los métodos existentes utilizan módulos de fusión de características adaptados a modalidades específicas, lo que limita la flexibilidad de entrada y aumenta el número de parámetros de entrenamiento. Para abordar esto, proponemos StitchFusion, un marco de fusión modal simple pero eficaz que integra directamente modelos preentrenados a gran escala en el codificador y la fusión de características. Este enfoque permite una fusión de características multimodal y multiescala integral que admite todas las entradas modales visuales. StitchFusion logra la integración modal al compartir información visual multimodal durante la codificación. Para mejorar el intercambio de información entre modalidades, introduce un módulo adaptador multidireccional (MultiAdapter) que permite la transferencia de información intermodal durante la codificación. Al aprovechar MultiAdapter para propagar información multiescala entre codificadores preentrenados, se logra la integración de la información visual multimodal durante la codificación. Los resultados experimentales demuestran que el modelo propuesto alcanza un rendimiento de vanguardia en cuatro conjuntos de datos de segmentación multimodal, a la vez que minimiza la necesidad de parámetros adicionales. Además, la integración experimental del módulo de fusión de características (FFM) y el MultiAdapter existentes demuestra sus propiedades complementarias.