Cet article examine en détail l'intersection entre l'intelligence distribuée et l'optimisation des modèles dans le cadre du calcul collaboratif Edge-Cloud (ECCC). L'ECCC, qui intègre des périphériques et des ressources cloud pour permettre un traitement efficace et à faible latence, s'est imposé comme un paradigme clé pour répondre aux exigences de calcul des applications intelligentes modernes. Cet article propose un tutoriel structuré sur l'architecture sous-jacente, les technologies clés et les applications émergentes. Il analyse systématiquement les méthodes d'optimisation des modèles, telles que la compression, l'adaptation et l'exploration de l'architecture des réseaux neuronaux, ainsi que les stratégies de gestion des ressources basées sur l'IA qui équilibrent les exigences de performance, d'efficacité énergétique et de latence. De plus, il explore les aspects critiques de l'amélioration de la confidentialité et de la sécurité au sein des systèmes ECCC et examine les déploiements réels dans diverses applications, notamment la conduite autonome, la santé et l'automatisation industrielle. Les techniques d'analyse des performances et d'analyse comparative sont également explorées en profondeur afin d'établir des normes d'évaluation pour ces systèmes complexes. Enfin, il présente une feuille de route pour relever les défis actuels de la gestion de l'hétérogénéité, du traitement en temps réel et de l'évolutivité, en mettant en évidence les axes de recherche clés, notamment le déploiement des LLM, l'intégration de la 6G, l'informatique neuromorphique et l'informatique quantique.