Bài báo này trình bày MMT4NL, một khuôn khổ kiểm thử phần mềm dựa trên việc đánh giá độ tin cậy của học tập theo ngữ cảnh (ICL) trên các mô hình ngôn ngữ quy mô lớn (LLM). MMT4NL khai thác các ví dụ đối kháng và các kỹ thuật kiểm thử phần mềm để xác định các lỗ hổng trong ICL. Nó coi LLM như phần mềm và tạo ra các ví dụ đối kháng đã được sửa đổi từ một tập kiểm thử để định lượng và xác định lỗi trong các lời nhắc ICL. Các thí nghiệm về phân tích cảm xúc và các nhiệm vụ trả lời câu hỏi đã phát hiện ra nhiều lỗi ngôn ngữ khác nhau trong các LLM hiện đại.