Dans cet article, nous présentons un cadre d'apprentissage par renforcement appelé SwarmThinkers pour relever les défis de la cohérence physique, de l'interprétabilité et de l'évolutivité simultanées dans les systèmes de simulation scientifique. SwarmThinkers redéfinit les simulations à l'échelle atomique comme des systèmes d'intelligence en essaim basés sur la physique, modélisant chaque particule diffusante comme un agent de décision local sélectionnant les transitions via un réseau de politiques partagé. Un mécanisme de repondération, qui fusionne les préférences apprises et les taux de transition, permet des décisions interprétables étape par étape tout en maintenant la précision statistique. Le paradigme d'apprentissage centralisé et d'exécution distribuée permet la généralisation des politiques sans réentraînement, quelles que soient la taille, la concentration ou la température du système. Sur un benchmark simulant la précipitation d'alliages Fe-Cu induite par rayonnement, SwarmThinkers est le premier système à réaliser des simulations physiquement cohérentes à grande échelle sur un seul GPU A100, ce qui n'était auparavant possible qu'avec OpenKMC utilisant un supercalculateur. Il offre des calculs jusqu'à 4963 fois plus rapides (3185 fois en moyenne) et une utilisation mémoire 485 fois inférieure. En traitant les particules comme des décideurs plutôt que comme des échantillonneurs passifs, SwarmThinkers présente un changement de paradigme dans la simulation scientifique qui intègre la cohérence physique, l'interprétabilité et l'évolutivité avec l'intelligence basée sur les agents.