Este artículo destaca la Limitations del método de evaluación en el aprendizaje autosupervisado (SSL) y propone un nuevo marco de evaluación para mejorarlo. La evaluación actual basada en puntos de referencia fijos se desvía del objetivo final de la investigación en IA, "resolver todas las tareas posibles", y obliga a los investigadores a dedicar un gran esfuerzo a encontrar diversas tareas de evaluación. En este artículo, introducimos la distribución de tareas y los priores de tareas para definir el espacio probabilístico de todas las subtareas posibles. Esto nos permite evaluar el rendimiento promedio y la varianza del modelo para todas las subtareas posibles. Se espera que esto evalúe el rendimiento del modelo en todas las subtareas posibles y contribuya especialmente al avance de la investigación en aprendizaje autosupervisado.