Cet article met en évidence les défis liés à l'évaluation des méthodes de détection des hallucinations dans les modèles linguistiques à grande échelle (MLH). Les méthodes existantes de détection des hallucinations reposent sur des mesures basées sur la redondance lexicale comme ROUGE, qui sont incompatibles avec le jugement humain et donc sujettes à des erreurs. Grâce à des études humaines, les chercheurs démontrent que si ROUGE a un taux de rappel élevé, sa précision est très faible, ce qui conduit à une surestimation des performances. En utilisant des mesures d'évaluation basées sur l'humain comme LLM-as-Judge, ils ont observé que les performances des méthodes de détection existantes se dégradaient jusqu'à 45,9 %. Ils ont également constaté que des heuristiques simples, comme la longueur de réponse, étaient similaires à des techniques de détection complexes. Par conséquent, ils soutiennent qu'un système d'évaluation sémantique et robuste est essentiel pour mesurer avec précision les performances des méthodes de détection des hallucinations afin de garantir la fiabilité des résultats des LLM.