Este artículo presenta MMT4NL, un marco de trabajo basado en pruebas de software para evaluar la fiabilidad del aprendizaje en contexto (ICL) de modelos lingüísticos a gran escala (LLM). MMT4NL aprovecha ejemplos adversarios y técnicas de pruebas de software para identificar vulnerabilidades en los ICL. Trata los LLM como software y genera ejemplos adversarios modificados a partir de un conjunto de pruebas para cuantificar e identificar errores en las indicaciones de los ICL. Experimentos con análisis de sentimientos y tareas de preguntas y respuestas revelan diversos errores lingüísticos en los LLM de última generación.