Bài báo này khám phá xu hướng ưu tiên so sánh từng cặp hơn là xếp hạng tuyệt đối hoặc phân loại trình tự để cải thiện độ tin cậy trong các tác vụ chú thích chủ quan hoặc đầy thử thách. Trong khi so sánh từng cặp truyền thống yêu cầu một số lượng lớn chú thích (O(n^2)), nghiên cứu gần đây đã giảm đáng kể gánh nặng chú thích (O(n log n)) bằng cách chủ động lấy mẫu so sánh từng cặp bằng thuật toán căn chỉnh. Trong bài báo này, chúng tôi tiếp tục cải thiện hiệu quả chú thích bằng cách (1) căn chỉnh trước các mục theo thứ bậc bằng mô hình đào tạo trước ngôn ngữ-hình ảnh tương phản (CLIP) mà không cần đào tạo và (2) thay thế các so sánh dễ dàng và rõ ràng của con người bằng các so sánh tự động. EZ-Sort được đề xuất trước tiên tạo ra một căn chỉnh trước zero-shot dựa trên CLIP, sau đó khởi tạo điểm Elo nhận biết nhóm và cuối cùng chạy MergeSort có sự tham gia của con người dựa trên sự không chắc chắn. Chúng tôi đã xác thực phương pháp của mình bằng cách sử dụng nhiều tập dữ liệu khác nhau, bao gồm Ước tính tuổi khuôn mặt (FGNET), Niên đại hình ảnh lịch sử (DHCI) và EyePACS (EyePACS). Kết quả là, EZ-Sort duy trì hoặc cải thiện độ tin cậy giữa các nhà đánh giá, đồng thời giảm 90,5% chi phí chú thích của con người so với so sánh từng cặp đầy đủ và 19,8% (khi n = 100) so với các nghiên cứu hiện có. Những kết quả này chứng minh rằng việc kết hợp thông tin trước đó dựa trên CLIP và lấy mẫu có tính đến sự không chắc chắn sẽ mang lại một giải pháp xếp hạng từng cặp hiệu quả và có khả năng mở rộng.