Bài báo này nêu bật những thách thức trong việc đánh giá các phương pháp phát hiện ảo giác trong các mô hình ngôn ngữ quy mô lớn (LLM). Các phương pháp phát hiện ảo giác hiện có dựa trên các số liệu dựa trên sự dư thừa từ vựng như ROUGE, không nhất quán với đánh giá của con người và do đó dễ mắc lỗi. Thông qua các nghiên cứu trên người, các nhà nghiên cứu chứng minh rằng mặc dù ROUGE có khả năng nhớ lại cao, nhưng độ chính xác lại rất thấp, dẫn đến việc đánh giá quá cao hiệu suất. Sử dụng các số liệu đánh giá dựa trên con người như LLM-as-Judge, họ quan sát thấy hiệu suất của các phương pháp phát hiện hiện có giảm tới 45,9%. Họ cũng nhận thấy rằng các phương pháp tìm kiếm đơn giản, chẳng hạn như độ dài phản hồi, có hiệu suất tương tự như các kỹ thuật phát hiện phức tạp. Do đó, họ lập luận rằng một hệ thống đánh giá mạnh mẽ xem xét ngữ nghĩa và đo lường chính xác hiệu suất của các phương pháp phát hiện ảo giác là điều cần thiết để đảm bảo độ tin cậy của đầu ra LLM.