Cet article présente MMT4NL, un cadre de test logiciel permettant d'évaluer la fiabilité de l'apprentissage en contexte (ICL) des modèles linguistiques à grande échelle (LLM). MMT4NL exploite des exemples contradictoires et des techniques de test logiciel pour identifier les vulnérabilités des ICL. Il traite les LLM comme des logiciels et génère des exemples contradictoires modifiés à partir d'un ensemble de tests afin de quantifier et d'identifier les bugs dans les invites ICL. Des expériences sur l'analyse des sentiments et les tâches de questions-réponses révèlent divers bugs linguistiques dans les LLM de pointe.