Este artículo se centra en el aprendizaje de representaciones de escenas mediante información multimodal. Para abordar el problema del conflicto de modalidades, especialmente la disparidad de propiedades y la disparidad de granularidad, que surgen debido a las diferencias inherentes entre diversas modalidades, proponemos un marco general denominado MMOne. MMOne captura las características únicas de cada modalidad mediante un módulo de modelado de modalidades que utiliza un novedoso indicador de modalidad y un mecanismo de descomposición multimodal que separa las gaussianas multimodales en gaussianas monomodales y genera representaciones de escenas multimodales más eficientes al separar la información multimodal en componentes compartidos y específicos de cada modalidad. Los resultados experimentales demuestran que el método propuesto mejora la capacidad de representación de cada modalidad y es extensible a modalidades adicionales. El código fuente está disponible en GitHub.