本文探讨了大规模语言模型 (LLM) 对文本形态噪声的鲁棒性,并强调了在现实环境中实现“干净数据”(自然语言处理 (NLP) 系统的基本前提)的难度。我们通过向各种数据集人为添加噪声来系统地评估 LLM 的鲁棒性。我们发现,与 BERT 和 RoBERTa 等现有的预训练模型相比,生成式 LLM 对噪声具有更强的鲁棒性。此外,我们在多个模拟真实世界错误的基准测试中测试了 LLM 的性能,在语法纠错 (GEC) 和词汇语义变化 (LSC) 方面取得了最佳表现。我们发布了一个人工标注的数据集,该数据集表明了人们对 LLM 和人工标注结果的偏好,并提供了用于复现结果的代码。