इस पत्र में, हम बड़े पैमाने के भाषा मॉडलों (एलएलएम) की नवीन ज्ञान प्राप्त करने की क्षमता के मूल्यांकन हेतु एक नवीन ढाँचा प्रस्तावित करते हैं। यह ढाँचा एक जिज्ञासु मानव का अनुकरण करता है, जो एलएलएम को पहली बार प्रश्न उत्पन्न करने के लिए प्रेरित करके, वैज्ञानिक ज्ञान का परिचय देने वाले वाक्य का सामना करता है। हम उत्पन्न प्रश्नों की गुणवत्ता का आकलन करके एलएलएम की ज्ञान अर्जन क्षमता का मूल्यांकन करते हैं, और एक नियंत्रित उन्मूलन अध्ययन के माध्यम से स्कोरिंग प्रक्रिया की वैधता की पुष्टि करते हैं। हम भौतिकी, रसायन विज्ञान और गणित में भिन्न-भिन्न कठिनाई वाले 1,101 वाक्यों, 300 सामान्य ज्ञान वाक्यों और 567 गलत वाक्यों से युक्त एक संश्लेषित डेटासेट तैयार करते हैं, और मानव मूल्यांकन (भारित कोहेन का कप्पा लगभग 0.7) के माध्यम से मॉडल मूल्यांकन की वैधता की पुष्टि करते हैं। हम पाते हैं कि जहाँ GPT-4 और मिस्ट्रल 8x7b जैसे बड़े मॉडल सुसंगत और प्रासंगिक प्रश्न उत्पन्न करने में कुशल हैं, वहीं छोटा Phi-2 मॉडल समान रूप से या उससे भी अधिक प्रभावी है। इससे पता चलता है कि मॉडल का आकार ज्ञान अर्जन क्षमता को निर्धारित करने वाला एकमात्र कारक नहीं है। प्रस्तावित ढांचा उन महत्वपूर्ण मॉडल विशेषताओं को निर्धारित करता है जिन्हें पहले नजरअंदाज किया गया था, तथा अधिक ज्ञान-समृद्ध एआई प्रणालियों के विकास के लिए अनुसंधान के अवसर प्रस्तुत करता है।