Cet article se concentre sur l'apprentissage de représentations de scènes à l'aide d'informations multimodales. Pour résoudre le problème des conflits de modalités, notamment les problèmes de disparité de propriétés et de disparité de granularité, qui surviennent en raison des différences inhérentes entre les différentes modalités, nous proposons un cadre général appelé MMOne. MMOne capture les caractéristiques uniques de chaque modalité grâce à un module de modélisation des modalités utilisant un nouvel indicateur de modalité et un mécanisme de décomposition multimodale qui sépare les gaussiennes multimodales en gaussiennes monomodales, et génère des représentations de scènes multimodales plus efficaces en séparant les informations multimodales en composantes communes et spécifiques à chaque modalité. Les résultats expérimentaux démontrent que la méthode proposée améliore la capacité de représentation de chaque modalité et est extensible à d'autres modalités. Le code source est disponible sur GitHub.