Bài báo này trình bày một nghiên cứu sử dụng thang điểm Lỗi Viết Mục (IWF), đánh giá các mục kiểm tra dựa trên các đặc điểm văn bản, để thay thế phương pháp xác thực mục dựa trên bài kiểm tra thí điểm truyền thống, tốn nhiều tài nguyên cho các đánh giá giáo dục dựa trên lý thuyết phản hồi mục (IRT). Chúng tôi đã áp dụng thang điểm IWF tự động (19 tiêu chí) cho 7.126 câu hỏi trắc nghiệm (STEM) và phân tích mối quan hệ của chúng với các thông số IRT (độ khó, khả năng phân biệt). Phân tích cho thấy mối tương quan đáng kể giữa số lượng IWF và các thông số độ khó và khả năng phân biệt của IRT, đặc biệt là trong khoa học sự sống/trái đất và khoa học vật lý, và cho thấy các tiêu chí IWF cụ thể (ví dụ: từ vựng phủ định, câu trả lời sai không thực tế) có mức độ tác động khác nhau đến chất lượng mục. Tóm lại, chúng tôi đề xuất rằng phân tích IWF tự động có thể là một phương pháp bổ sung hiệu quả cho các phương pháp xác thực hiện có, đặc biệt hữu ích cho việc sàng lọc các câu hỏi trắc nghiệm có độ khó thấp.