Cet article explore la stylométrie comme moyen de distinguer les textes générés par des modèles linguistiques à grande échelle (MLH) des textes écrits par des humains. L'objectif est d'aborder les questions d'attribution de modèles, de droits de propriété intellectuelle et d'utilisation éthique de l'IA. Nous avons créé un ensemble de données de référence composé de résumés humains issus de Wikipédia, de textes générés par divers LHH (GPT-3.5/4, LLaMa 2/3, Orca, Falcon) et de textes soumis à plusieurs méthodes de résumé de texte (T5, BART, Gensim, Sumy) et de reconstruction de phrases (Dipper, T5). Les textes de 10 phrases ont été classés à l'aide de modèles arborescents tels que les arbres de décision et LightGBM. Les caractéristiques utilisées étaient des caractéristiques de stylométrie conçues par des humains (StyloMetrix) contenant des schémas de vocabulaire, de grammaire, de syntaxe et de ponctuation, ainsi que des caractéristiques basées sur les n-grammes. Nous avons obtenu un coefficient de corrélation de Matthews allant jusqu'à 0,87 dans un scénario multi-classes à 7 classes, et une précision de 0,79 à 1,0 en classification binaire. En particulier, pour Wikipédia et GPT-4, nous avons atteint une précision allant jusqu'à 0,98 sur un ensemble de données équilibré. Nous avons identifié des caractéristiques de textes de type encyclopédique, des mots surutilisés et une standardisation grammaticale plus élevée des LLM par rapport aux textes rédigés par des humains grâce aux explications additives de Shapley (SHAP). Ces résultats montrent que, dans le contexte de LLM de plus en plus sophistiqués, il est possible de distinguer les textes générés par machine des textes générés par des humains pour certains types de textes.