Cet article souligne que les systèmes multi-agents exploitant des modèles de langage à grande échelle (LLM) se sont révélés être des outils performants pour les tâches complexes, mais qu'ils sont confrontés à des défis tels que l'absence de mécanismes de quantification des performances des agents et d'évaluation de leur fiabilité. Pour y remédier, nous proposons un cadre de filtrage dynamique de réputation (DRF). Ce cadre construit un réseau d'évaluation des interactions pour quantifier les performances des agents, conçoit un mécanisme de notation de la réputation pour mesurer leur honnêteté et leur compétence, et intègre une stratégie basée sur l'intervalle de confiance de la borne supérieure (UCB) pour améliorer l'efficacité de la sélection des agents. Les résultats expérimentaux démontrent que le DRF améliore significativement la qualité d'exécution des tâches et l'efficacité de la collaboration dans les tâches de raisonnement logique et de génération de code, offrant une nouvelle approche pour les systèmes multi-agents conçus pour gérer des tâches à grande échelle.