यह शोधपत्र जनरेटिव मशीन लर्निंग मॉडलों के मूल्यांकन में आने वाली चुनौतियों की पहचान करता है और इन समस्याओं के समाधान हेतु एक नवीन मूल्यांकन प्रोटोकॉल, ग्रैंडज्यूरी, का प्रस्ताव करता है। यह मौजूदा स्थिर, मानक-आधारित मूल्यांकन विधियों की सीमाओं पर प्रकाश डालता है, जो गतिशील उपयोगकर्ता आवश्यकताओं या बदलती परिस्थितियों को प्रतिबिंबित करने में विफल रहती हैं। ग्रैंडज्यूरी समय-क्षीण एकत्रीकरण, पूर्ण अनुरेखणीयता, कार्य मानदंडों के गतिशील और पारदर्शी अनुप्रयोग, और बहु-मूल्यांकनकर्ता मानवीय निर्णय को संयोजित करके बहु-विषयक और उत्तरदायी मूल्यांकन को सक्षम बनाता है। यह एक ओपन-सोर्स कार्यान्वयन (ग्रैंडज्यूरी PyPI पैकेज) प्रदान करता है जिसमें LLM अनुमान परिणाम शामिल हैं, जो ग्रैंडज्यूरी की आवश्यकता और कार्यप्रणाली को प्रदर्शित करता है। यह पूर्ण उत्तरों के बिना मशीन लर्निंग आउटपुट के मूल्यांकन के लिए एक नया प्रतिमान प्रस्तुत करता है।