Bài báo này chỉ ra Limitations của phương pháp đánh giá trong học tự giám sát (SSL) và đề xuất một khuôn khổ đánh giá mới để cải thiện nó. Phương pháp đánh giá dựa trên chuẩn cố định hiện tại đang đi chệch khỏi mục tiêu cuối cùng của nghiên cứu AI, đó là "giải quyết tất cả các nhiệm vụ khả thi", và khiến các nhà nghiên cứu tốn rất nhiều công sức để tìm ra các nhiệm vụ đánh giá khác nhau. Trong bài báo này, chúng tôi định nghĩa không gian xác suất của tất cả các nhiệm vụ con khả thi bằng cách giới thiệu phân phối nhiệm vụ và tiên nghiệm của nhiệm vụ. Điều này cho phép chúng tôi đánh giá hiệu suất trung bình và phương sai của mô hình cho tất cả các nhiệm vụ con khả thi. Điều này được kỳ vọng sẽ đánh giá hiệu suất mô hình trong tất cả các nhiệm vụ con khả thi và đặc biệt góp phần vào sự phát triển của nghiên cứu học tự giám sát.