Dans cet article, nous proposons une nouvelle méthode, le modèle de langage vidéo-géométrique 3D (VG LLM), pour améliorer les performances des modèles de langage multimodaux (MLLM) utilisant uniquement des données vidéo, sans données 3D supplémentaires, pour la compréhension de scènes 3D. Le VG LLM utilise un encodeur de géométrie visuelle 3D pour extraire des informations spatiales 3D des séquences vidéo, qui sont ensuite intégrées à des jetons visuels et transmises au MLLM. Les résultats expérimentaux démontrent que la méthode proposée améliore significativement les performances sur diverses tâches de compréhension de scènes 3D et de raisonnement spatial. En particulier, elle obtient des résultats compétitifs par rapport aux méthodes de pointe existantes sans données 3D explicites, et présente un modèle 4B qui surpasse Gemini-1.5-Pro lors de l'évaluation VSI-Bench.