यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) का उपयोग करके साहित्य समीक्षाओं को स्वचालित करने की क्षमता और सीमाओं का अन्वेषण करता है। हालाँकि एलएलएम में दस्तावेज़ संग्रह, संगठन और सारांशीकरण सहित साहित्य समीक्षा प्रक्रिया को स्वचालित करने की क्षमता है, फिर भी व्यापक और विश्वसनीय साहित्य समीक्षाओं को स्वचालित करने में उनकी प्रभावशीलता अभी भी अस्पष्ट है। यह अध्ययन तीन मुख्य कार्यों में एलएलएम के प्रदर्शन का स्वचालित मूल्यांकन करने के लिए एक रूपरेखा प्रस्तुत करता है: संदर्भ उत्पन्न करना, साहित्य का सारांश तैयार करना और साहित्य समीक्षाएँ लिखना। हम उत्पन्न संदर्भों की मतिभ्रम दर का आकलन करते हैं और एक बहुआयामी मूल्यांकन मीट्रिक प्रस्तुत करते हैं जो मानव-जनित संदर्भों की तुलना में सारांशों और लेखन के अर्थगत कवरेज और तथ्यात्मक संगति को मापता है। प्रायोगिक परिणाम दर्शाते हैं कि नवीनतम प्रगति के बावजूद, अत्याधुनिक मॉडल भी मतिभ्रमकारी संदर्भ उत्पन्न करते हैं। इसके अलावा, हम यह भी प्रदर्शित करते हैं कि साहित्य समीक्षा लेखन में विभिन्न मॉडलों का प्रदर्शन विभिन्न विषयों में भिन्न होता है।