Bài báo này nghiên cứu khả năng của các mô hình ngôn ngữ hiện đại trong việc phát hiện ra rằng chúng đang được đánh giá, hay còn gọi là "nhận thức đánh giá". Sử dụng nhiều chuẩn mực bao gồm 1.000 lời nhắc và bản ghi chép được thu thập từ 61 tập dữ liệu khác nhau, chúng tôi chứng minh rằng các mô hình có thể phân loại chính xác bản ghi chép đánh giá từ bản ghi chép trong thế giới thực. Các thí nghiệm của chúng tôi cho thấy các mô hình hiện đại có thể nhận dạng các đánh giá tốt hơn các đánh giá ngẫu nhiên (Gemini-2.5-Pro đạt AUC là 0,83), nhưng vẫn chưa đạt chuẩn mực của con người (AUC là 0,92). Cả mô hình và con người đều giỏi hơn trong việc xác định các đánh giá trong bối cảnh tác nhân so với bối cảnh đàm thoại và các mô hình cũng hoạt động tốt trong việc xác định mục đích của đánh giá. Tóm lại, các mô hình hiện đại có mức độ nhận thức đánh giá đáng kể, mặc dù chúng chưa đạt đến cấp độ con người và chúng tôi khuyến khích theo dõi khả năng này trong các mô hình trong tương lai.