En este artículo, presentamos un marco de evaluación de código abierto, el Haerae Evaluation Toolkit (HRET), para abordar el problema de reproducibilidad en la evaluación del rendimiento de los modelos lingüísticos a gran escala (LLM) coreanos. HRET integra los principales puntos de referencia coreanos, diversos backends de inferencia y múltiples métodos de evaluación, y adopta un diseño de registro modular que mantiene la consistencia de la salida coreana y permite la rápida integración de nuevos conjuntos de datos, métodos y backends. Además de las métricas de precisión estándar, diagnostica defectos morfológicos y semánticos en la salida del modelo y sugiere maneras de mejorarlos mediante análisis específicos para coreanos, como la relación tipo-token (TTR) de reconocimiento morfológico y la detección de omisiones de palabras clave.