Este artículo aborda el creciente interés en el uso de sistemas basados en modelos de lenguaje a gran escala (LLM) para aplicaciones prácticas, así como los desafíos de una evaluación significativa de dichos sistemas en escenarios reales. Señalamos que los puntos de referencia sintéticos y las métricas de facto, frecuentemente utilizadas en estudios existentes, no abordan adecuadamente los problemas del mundo real. Presentamos un marco de evaluación práctico que describe cómo seleccionar métricas de evaluación significativas, precurar conjuntos de datos representativos y una metodología de evaluación significativa que se integre eficazmente con el desarrollo e implementación prácticos de sistemas basados en LLM que satisfagan los requisitos y las necesidades reales de los usuarios.