Cet article présente un système permettant de déployer et de gérer efficacement des agents d'IA basés sur des modèles de langage à grande échelle (LLM), tels que ChatGPT et Claude, dans des environnements périphériques dynamiques. Pour relever les défis de latence élevée des déploiements cloud, nous souhaitons déployer des agents d'IA dans des environnements périphériques. Compte tenu de la nature limitée et hétérogène des ressources périphériques, nous modélisons les contraintes de ressources et la latence/coûts. Nous proposons un cadre adaptatif utilisant l'algorithme de colonie de fourmis et l'optimisation basée sur les LLM. Ce système automatise le déploiement et la migration des agents, optimise l'utilisation des ressources et la qualité de service (QoS), et permet une migration légère des agents ne transmettant que l'état essentiel. Implémenté dans un système distribué utilisant AgentScope, le système a été validé sur des serveurs périphériques répartis à l'échelle mondiale, démontrant des réductions significatives de la latence de déploiement et des coûts de migration.