Este artículo destaca los desafíos en la evaluación de métodos de detección de alucinaciones en modelos de lenguaje a gran escala (LLM). Los métodos de detección de alucinaciones existentes se basan en métricas basadas en redundancia léxica como ROUGE, que son inconsistentes con el juicio humano y, por lo tanto, propensas a errores. A través de estudios en humanos, los investigadores demuestran que si bien ROUGE tiene una alta capacidad de recuperación, tiene una precisión muy baja, lo que lleva a una sobreestimación del rendimiento. Utilizando métricas de evaluación basadas en humanos como LLM-as-Judge, observaron que el rendimiento de los métodos de detección existentes se deterioró hasta en un 45,9%. También encontraron que las heurísticas simples, como la longitud de la respuesta, funcionaron de manera similar a las técnicas de detección complejas. Por lo tanto, argumentan que un sistema de evaluación robusto que considere la semántica y mida con precisión el rendimiento de los métodos de detección de alucinaciones es esencial para garantizar la confiabilidad de los resultados de LLM.