इस शोधपत्र में, हम कोरियाई वृहद-स्तरीय भाषा मॉडलों (एलएलएम) के प्रदर्शन मूल्यांकन में पुनरुत्पादनशीलता की समस्या का समाधान करने के लिए एक मुक्त-स्रोत मूल्यांकन ढाँचा, हेराए मूल्यांकन टूलकिट (एचआरईटी) प्रस्तुत करते हैं। एचआरईटी प्रमुख कोरियाई बेंचमार्क, विभिन्न अनुमान बैकएंड और बहु-मूल्यांकन विधियों को एकीकृत करता है, और एक मॉड्यूलर रजिस्ट्री डिज़ाइन को अपनाता है जो कोरियाई आउटपुट की एकरूपता बनाए रखता है और नए डेटासेट, विधियों और बैकएंड के त्वरित एकीकरण की अनुमति देता है। मानक सटीकता मेट्रिक्स के अलावा, यह मॉडल आउटपुट में रूपात्मक और अर्थ संबंधी दोषों का निदान करता है और कोरियाई-विशिष्ट विश्लेषणों, जैसे रूपात्मक पहचान प्रकार-से-टोकन अनुपात (टीटीआर) और कीवर्ड चूक पहचान, के माध्यम से उन्हें सुधारने के तरीके सुझाता है।