본 논문은 기존의 다중 모달 대규모 모델(LMM) 평가 방식의 한계를 극복하기 위해, 자동화된 비디오 분석 능력 평가 벤치마크인 VideoAutoArena를 제안합니다. VideoAutoArena는 LMSYS Chatbot Arena의 프레임워크를 기반으로 사용자 시뮬레이션을 통해 개방형이고 적응적인 질문을 생성하여 LMM의 비디오 이해 능력을 엄격하게 평가합니다. 수정된 ELO 평점 시스템을 사용하여 다수의 LMM을 공정하고 지속적으로 비교하며, 인간 평가와의 일치성을 검증하기 위해 정밀하게 선별된 인간 주석의 '골드 스탠다드'를 구축했습니다. 또한, 모델의 성능 향상을 위해 질문의 복잡성을 점진적으로 높이는 오류 기반 진화 전략을 도입했습니다. 실험 결과, VideoAutoArena는 최첨단 LMM들을 효과적으로 구분하고, 모델의 강점과 개선점을 파악하는 데 유용함을 보여줍니다. 더불어, 인간 평가자의 결과를 활용하여 VideoAutoArena의 결과를 검증하는 보조 벤치마크인 VideoAutoBench도 제시합니다. VideoAutoArena와 VideoAutoBench는 비용 효율적이고 확장 가능한 LMM 평가 프레임워크를 제공합니다.