본 논문은 비디오 언어 모델(VLMs)의 성능 평가를 위한 자동화된 방법, 특히 여러 VLMs를 활용한 집단 평가의 효용성을 연구합니다. 기존의 단일 VLM을 평가자로 사용하는 방식의 신뢰성 한계를 지적하며, 다수의 신뢰도가 다른 VLMs로부터 평가를 수집하여 집단 판단을 내리는 방식을 실험합니다. 그 결과, 신뢰할 수 없는 모델을 포함한 집단 평가가 항상 정확도를 향상시키는 것은 아니며, 오히려 신뢰성 낮은 모델이 노이즈를 유발하여 전체 신뢰도를 저하시킬 수 있음을 밝힙니다. 또한, 성능이 저조한 VLM 평가자(Video-LLaVA)를 미세 조정하는 실험을 통해 이해 능력 향상만으로는 평가자의 신뢰성을 높이는 데 충분하지 않음을 보여줍니다. 결론적으로, VLMs의 신뢰성 있는 평가를 위해서는 개별 모델의 신뢰도를 고려하는 더욱 발전된 방법이 필요함을 강조합니다.