본 논문은 대규모 비전 언어 모델(VLMs)을 자동 평가자로 사용하는 경우가 증가함에 따라, 프롬프트에 따라 데이터 쌍을 효과적으로 비교하는 VLMs의 능력을 이해하는 것이 중요함을 강조합니다. 이를 위해 다양한 모드와 시나리오에서 VLMs를 사용자 지정 가능한 유사성 도구로 체계적으로 평가하는 저비용 프레임워크인 PairBench를 제시합니다. PairBench를 통해 인간 주석과의 일치성, 순서에 관계없는 데이터 쌍에 대한 일관성, 유사성 분포의 부드러움, 프롬프팅을 통한 제어 가능성이라는 네 가지 핵심적인 유사성 점수 기준을 제시합니다. 분석 결과, 오픈소스이든 클로즈드소스이든 모든 지표에서 우수한 모델은 없으며, 최적의 선택은 자동 평가자의 원하는 동작(예: 부드러운 판단 vs. 날카로운 판단)에 따라 달라짐을 보여줍니다. 이는 철저한 평가 없이 VLMs를 평가자로 광범위하게 채택하는 데 따른 위험성을 강조합니다. 예를 들어, 대부분의 VLMs는 순서에 관계없이 대칭적인 유사성 점수를 유지하는 데 어려움을 겪습니다. 또한 PairBench의 지표에 대한 VLMs의 성능은 인기 있는 벤치마크와 밀접하게 상관관계가 있음을 보여주어 모델 순위 지정에 대한 예측력을 보여줍니다.