Bài báo này đánh giá độ chính xác thực tế của các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là độ chính xác của chúng trong việc tạo liên kết đến các bài báo trên arXiv. Chúng tôi đã đánh giá nhiều LLM độc quyền và mã nguồn mở bằng cách sử dụng một chuẩn mực mới, arXivBench, bao gồm tám chuyên ngành chính và năm lĩnh vực phụ của khoa học máy tính. Đánh giá cho thấy LLM gây ra rủi ro đáng kể cho uy tín học thuật, thường tạo ra các liên kết arXiv không chính xác hoặc tham chiếu đến các bài báo không tồn tại. Claude-3.5-Sonnet đã chứng minh độ chính xác tương đối cao, và hầu hết các LLM đều vượt trội đáng kể so với các chuyên ngành khác trong lĩnh vực trí tuệ nhân tạo. Nghiên cứu này góp phần đánh giá và cải thiện độ tin cậy của LLM trong sử dụng học thuật thông qua chuẩn mực arXivBench. Mã nguồn và tập dữ liệu được công khai.