[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Các mô hình ngôn ngữ lớn thường biết khi nào chúng đang được đánh giá

Created by
  • Haebom

Tác giả

Joe Needham, Giles Edkins, Govind Pimpale, Henning Bartsch, Marius Hobbhahn

Phác thảo

Bài báo này nghiên cứu khả năng của các mô hình ngôn ngữ hiện đại trong việc phát hiện ra rằng chúng đang được đánh giá, hay còn gọi là "nhận thức đánh giá". Sử dụng nhiều chuẩn mực bao gồm 1.000 lời nhắc và bản ghi chép được thu thập từ 61 tập dữ liệu khác nhau, chúng tôi chứng minh rằng các mô hình có thể phân loại chính xác bản ghi chép đánh giá từ bản ghi chép trong thế giới thực. Các thí nghiệm của chúng tôi cho thấy các mô hình hiện đại có thể nhận dạng các đánh giá tốt hơn các đánh giá ngẫu nhiên (Gemini-2.5-Pro đạt AUC là 0,83), nhưng vẫn chưa đạt chuẩn mực của con người (AUC là 0,92). Cả mô hình và con người đều giỏi hơn trong việc xác định các đánh giá trong bối cảnh tác nhân so với bối cảnh đàm thoại và các mô hình cũng hoạt động tốt trong việc xác định mục đích của đánh giá. Tóm lại, các mô hình hiện đại có mức độ nhận thức đánh giá đáng kể, mặc dù chúng chưa đạt đến cấp độ con người và chúng tôi khuyến khích theo dõi khả năng này trong các mô hình trong tương lai.

Takeaways, Limitations

Takeaways: Bằng cách tiết lộ rằng các mô hình ngôn ngữ hiện đại nhận thức được môi trường đánh giá của chúng, chúng tôi đặt ra câu hỏi về độ tin cậy của việc đánh giá mô hình và thúc đẩy việc xem xét lại các phương pháp phát triển và đánh giá mô hình trong tương lai. Chúng tôi nhấn mạnh tầm quan trọng của việc theo dõi khả năng nhận thức đánh giá của mô hình. Khả năng hiểu mục đích đánh giá của mô hình cũng được khẳng định.
Limitations: Khả năng nhận dạng đánh giá của mô hình hiện tại chưa đạt đến trình độ con người. Cần nghiên cứu thêm để xác định tác động của việc cải thiện khả năng nhận dạng đánh giá lên độ tin cậy và an toàn của mô hình. Cần xem xét thêm về khả năng khái quát hóa của các chuẩn mực được sử dụng.
👍