Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tác động của các lỗi viết câu hỏi đến độ khó và khả năng phân biệt trong Lý thuyết phản hồi câu hỏi

Created by
  • Haebom

Tác giả

Robin Schmucker, Steven Moore

Phác thảo

Bài báo này trình bày một nghiên cứu sử dụng thang điểm Lỗi Viết Mục (IWF), đánh giá các mục kiểm tra dựa trên các đặc điểm văn bản, để thay thế phương pháp xác thực mục dựa trên bài kiểm tra thí điểm truyền thống, tốn nhiều tài nguyên cho các đánh giá giáo dục dựa trên lý thuyết phản hồi mục (IRT). Chúng tôi đã áp dụng thang điểm IWF tự động (19 tiêu chí) cho 7.126 câu hỏi trắc nghiệm (STEM) và phân tích mối quan hệ của chúng với các thông số IRT (độ khó, khả năng phân biệt). Phân tích cho thấy mối tương quan đáng kể giữa số lượng IWF và các thông số độ khó và khả năng phân biệt của IRT, đặc biệt là trong khoa học sự sống/trái đất và khoa học vật lý, và cho thấy các tiêu chí IWF cụ thể (ví dụ: từ vựng phủ định, câu trả lời sai không thực tế) có mức độ tác động khác nhau đến chất lượng mục. Tóm lại, chúng tôi đề xuất rằng phân tích IWF tự động có thể là một phương pháp bổ sung hiệu quả cho các phương pháp xác thực hiện có, đặc biệt hữu ích cho việc sàng lọc các câu hỏi trắc nghiệm có độ khó thấp.

Takeaways, Limitations

Takeaways:
Phân tích IWF tự động có thể bổ sung hiệu quả cho các phương pháp xác thực mục IRT tốn nhiều tài nguyên hiện có.
Phân tích IWF có thể xác định hiệu quả các câu hỏi trắc nghiệm có độ khó thấp.
Phân tích tác động của các tiêu chí IWF cụ thể đối với độ khó và khả năng phân biệt của câu hỏi có thể được sử dụng để cải thiện quá trình phát triển câu hỏi.
Limitations:
Nghiên cứu này chỉ giới hạn trong lĩnh vực STEM và cần nghiên cứu thêm để xác định khả năng tổng quát hóa của nó sang các lĩnh vực khác.
Cần nghiên cứu thêm để cải thiện các thuật toán và tiêu chí đánh giá chung của lĩnh vực.
Cần phải phát triển các thuật toán có thể hiểu được nội dung cụ thể của từng miền.
👍