Este artículo evalúa el rendimiento de un modelo de lenguaje pequeño (SLM) y un modelo de lenguaje grande (LLM) preentrenado para la identificación automática de lenguaje inapropiado (IUL) en materiales educativos médicos. Utilizando un conjunto de datos de aproximadamente 500 documentos (más de 12 000 páginas), comparamos varios modelos SLM, incluyendo un clasificador general de IUL, un clasificador binario específico de subcategoría, un clasificador multietiqueta y una secuencia jerárquica, así como un LLM (Llama-3 8B y 70B) con diversas variaciones de indicaciones. Los resultados mostraron que el SLM superó significativamente al LLM utilizando capturas cuidadosamente construidas, y en particular, el clasificador binario específico de subcategoría, entrenado con ejemplos negativos en secciones sin lenguaje inapropiado, tuvo el mejor rendimiento.