Dans cet article, nous présentons Haerae Evaluation Toolkit (HRET), un cadre d'évaluation intégré et open source prenant en charge diverses approches expérimentales pour résoudre le problème de reproductibilité des modèles linguistiques à grande échelle (LLM) coréens. HRET intègre les principaux benchmarks coréens, divers backends d'inférence et de multiples méthodes d'évaluation, garantit la cohérence des résultats coréens et adopte une conception de registre modulaire permettant l'intégration rapide de nouveaux ensembles de données, méthodes et backends. Outre les mesures de précision standard, il fournit également des analyses spécifiques au coréen, telles que le rapport type/token (TTR) de reconnaissance morphologique et la détection d'omission de mots-clés, afin de diagnostiquer les lacunes morphologiques et sémantiques dans les résultats des modèles, offrant ainsi des pistes pour améliorer le développement des LLM coréens.