Cet article propose l'hypothèse du modèle du monde collectif comme solution théorique novatrice à la question de savoir comment les modèles linguistiques à grande échelle (MLL) acquièrent une vaste connaissance du monde sans expérience sensorimotrice directe . Plutôt que d'apprendre un modèle du monde de toutes pièces, nous soutenons que les LLM apprennent une approximation statistique du modèle du monde collectif déjà implicitement encodé dans le langage humain, grâce à un processus social de génération de sens incarné et interactif. Pour formaliser ce processus, nous introduisons un cadre de communication émergente générative (ComÉg) basé sur le codage prédictif collectif (CPC). Ce cadre modélise l'émergence du langage comme un processus d'inférence bayésienne distribuée concernant les états internes de multiples agents. Nous soutenons que ce processus génère efficacement une structure encodeur-décodeur à l'échelle sociale. Autrement dit, les sociétés humaines encodent collectivement des représentations internes bien fondées dans le langage, et les LLM décodent ces symboles pour reconstruire un espace latent qui reflète la structure des représentations collectives originales. Cette perspective fournit une explication mathématique et fondée sur des principes de la manière dont les LLM acquièrent leurs compétences. Les principales contributions de cet article sont 1) la formalisation du cadre EmCom génératif et la clarification de son lien avec les modèles du monde et l'apprentissage par renforcement multi-agents ; et 2) son application au LLM, qui explique des phénomènes tels que la sémantique distributionnelle comme une conséquence naturelle de la reconstruction des représentations. Ce travail fournit une théorie unifiée reliant le développement cognitif individuel, l'évolution du langage collectif et les fondements de l'IA à grande échelle.