Este artículo explora la tendencia a favorecer las comparaciones por pares sobre los rangos absolutos o las clasificaciones de secuencias para mejorar la confiabilidad en tareas de anotación subjetivas o desafiantes. Mientras que las comparaciones por pares tradicionales requieren un gran número de anotaciones (O(n^2)), investigaciones recientes han reducido significativamente la carga de anotación (O(n log n)) al muestrear activamente las comparaciones por pares utilizando algoritmos de alineación. En este artículo, mejoramos aún más la eficiencia de la anotación al (1) prealinear aproximadamente los elementos jerárquicamente utilizando el modelo de preentrenamiento de lenguaje-imagen contrastivo (CLIP) sin entrenamiento, y (2) reemplazar las comparaciones humanas fáciles y obvias con comparaciones automatizadas. El EZ-Sort propuesto primero genera una prealineación de disparo cero basada en CLIP, luego inicializa las puntuaciones Elo con conocimiento de cubos y finalmente ejecuta MergeSort con participación humana basada en la incertidumbre. Validamos nuestro enfoque utilizando varios conjuntos de datos, incluidos Face Age Estimation (FGNET), Historical Image Chronology (DHCI) y EyePACS (EyePACS). Como resultado, EZ-Sort mantuvo o mejoró la fiabilidad entre evaluadores, a la vez que redujo los costes de anotación humana en un 90,5 % en comparación con la comparación por pares completa y en un 19,8 % (con n = 100) en comparación con estudios existentes. Estos resultados demuestran que la combinación de información previa basada en CLIP y un muestreo con control de la incertidumbre produce una solución de clasificación por pares eficiente y escalable.