Cet article évalue les performances d'un petit modèle de langage (SLM) et d'un grand modèle de langage pré-entraîné (LLM) pour l'identification automatique du langage inapproprié (IUL) dans les supports de formation médicale. À partir d'un ensemble de données d'environ 500 documents (plus de 12 000 pages), nous avons comparé différents modèles SLM, dont un classificateur général IUL, un classificateur binaire spécifique à une sous-catégorie, un classificateur multi-étiquettes et un pipeline hiérarchique, ainsi qu'un LLM (Llama-3 8B et 70B) avec plusieurs variantes d'invite. Les résultats ont montré que le SLM surpassait significativement le LLM utilisant des plans soigneusement construits, et en particulier, le classificateur binaire spécifique à une sous-catégorie, entraîné sur des exemples négatifs dans des sections exemptes de langage inapproprié, s'est montré le plus performant.