यह शोधपत्र बड़े पैमाने के भाषा मॉडल (LLM) की तथ्यात्मक सटीकता का मूल्यांकन करता है, विशेष रूप से arXiv लेखों के लिंक बनाने में उनकी सटीकता का। हमने एक नए बेंचमार्क, arXivBench का उपयोग करके विभिन्न प्रकार के स्वामित्व वाले और ओपन-सोर्स LLM का मूल्यांकन किया, जिसमें कंप्यूटर विज्ञान के आठ प्रमुख विषयों और पाँच उप-क्षेत्रों को शामिल किया गया। मूल्यांकन से पता चला कि LLM अकादमिक विश्वसनीयता के लिए एक बड़ा जोखिम पैदा करते हैं, अक्सर गलत arXiv लिंक उत्पन्न करते हैं या गैर-मौजूद शोधपत्रों का संदर्भ देते हैं। क्लाउड-3.5-सॉनेट ने अपेक्षाकृत उच्च सटीकता प्रदर्शित की, और अधिकांश LLM ने कृत्रिम बुद्धिमत्ता के क्षेत्र में अन्य विषयों की तुलना में उल्लेखनीय रूप से बेहतर प्रदर्शन किया। यह अध्ययन arXivBench बेंचमार्क के माध्यम से अकादमिक उपयोग में LLM की विश्वसनीयता के मूल्यांकन और सुधार में योगदान देता है। कोड और डेटासेट सार्वजनिक रूप से उपलब्ध हैं।