Bài báo này nhấn mạnh tầm quan trọng của việc phát triển các câu hỏi chất lượng cao trong các bài đánh giá giáo dục dựa trên Lý thuyết Phản hồi Câu hỏi (IRT) và đề xuất một phương pháp xác thực câu hỏi hiệu quả sử dụng phân tích Lỗi Viết Câu hỏi (IWF), thay thế phương pháp tiền kiểm tra truyền thống, tốn nhiều tài nguyên. Chúng tôi đã thực hiện phân tích IWF tự động trên 7.126 câu hỏi trắc nghiệm STEM dựa trên 19 tiêu chí và phân tích mối tương quan của chúng với chỉ số độ khó và độ phân biệt của IRT. Kết quả cho thấy mối tương quan đáng kể giữa số lượng câu hỏi IWF và chỉ số độ khó và độ phân biệt của IRT, đặc biệt là trong khoa học sự sống/trái đất và khoa học vật lý. Hơn nữa, chúng tôi nhận thấy rằng các tiêu chí IWF cụ thể (ví dụ: sử dụng từ vựng tiêu cực so với các lựa chọn câu trả lời sai không thực tế) có tác động khác nhau đến chất lượng và độ khó của câu hỏi. Những phát hiện này cho thấy phân tích IWF tự động có thể bổ sung cho các phương pháp xác thực hiện có như một phương pháp sàng lọc hiệu quả cho các câu hỏi, đặc biệt là để chọn các câu hỏi có độ khó thấp. Tuy nhiên, chúng tôi cũng nêu bật những hạn chế của các tiêu chí và thuật toán đánh giá theo từng lĩnh vực, cũng như nhu cầu nghiên cứu sâu hơn xem xét các đặc điểm của từng lĩnh vực.