본 논문은 대규모 비전 언어 모델(VLMs)의 시각적 입력 비교 효율성을 평가하는 새로운 프레임워크인 PairBench를 제시합니다. 기존에는 VLMs의 비교 판단 능력에 대한 체계적인 평가가 부족했으나, PairBench는 널리 사용 가능한 이미지 데이터셋을 이용하여 VLMs을 사용자 정의 가능한 유사성 도구로 평가합니다. 인간 주석과의 정렬, 쌍 순서 일관성, 분포 매끄러움, 프롬프트를 통한 제어 가능성 등 네 가지 주요 지표를 도입하여 VLMs의 성능을 측정합니다. 분석 결과, 어떤 모델도 모든 지표에서 일관되게 우수한 성능을 보이지 않았으며, 각 모델마다 강점과 약점이 다르게 나타났습니다. 특히, 대부분의 VLMs가 대칭적인 유사성 점수를 유지하지 못하는 것은 심각한 문제점으로 지적됩니다. 흥미롭게도 PairBench의 성능은 더 복잡한 작업에 사용되는 기존 벤치마크와 강한 상관관계를 보이며, 제어 가능성, 매끄러움, 순서와 같은 추가적인 지표를 제공합니다. 따라서 PairBench는 작업에 따라 VLMs의 자동 평가 성능을 평가하는 독창적이고 포괄적인 프레임워크입니다.