Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

Created by
  • Haebom
Category
Empty

저자

Ziyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li

개요

본 논문은 기존의 다중 모달 대규모 모델(LMM) 평가 방식의 한계를 극복하기 위해, 자동화된 비디오 분석 능력 평가 벤치마크인 VideoAutoArena를 제안합니다. VideoAutoArena는 LMSYS Chatbot Arena의 프레임워크를 기반으로 사용자 시뮬레이션을 통해 개방형이고 적응적인 질문을 생성하여 LMM의 비디오 이해 능력을 엄격하게 평가합니다. 수정된 ELO 평점 시스템을 사용하여 다수의 LMM을 공정하고 지속적으로 비교하며, 인간 평가와의 일치성을 검증하기 위해 정밀하게 선별된 인간 주석의 '골드 스탠다드'를 구축했습니다. 또한, 모델의 성능 향상을 위해 질문의 복잡성을 점진적으로 높이는 오류 기반 진화 전략을 도입했습니다. 실험 결과, VideoAutoArena는 최첨단 LMM들을 효과적으로 구분하고, 모델의 강점과 개선점을 파악하는 데 유용함을 보여줍니다. 더불어, 인간 평가자의 결과를 활용하여 VideoAutoArena의 결과를 검증하는 보조 벤치마크인 VideoAutoBench도 제시합니다. VideoAutoArena와 VideoAutoBench는 비용 효율적이고 확장 가능한 LMM 평가 프레임워크를 제공합니다.

시사점, 한계점

시사점:
기존의 제한적인 다중 선택형 평가 방식을 넘어, 실제 사용자의 요구를 더 잘 반영하는 자동화된 LMM 평가 벤치마크를 제시했습니다.
사용자 시뮬레이션과 적응형 질문 생성을 통해 LMM의 비디오 이해 능력을 더욱 정교하게 평가할 수 있습니다.
ELO 평점 시스템을 활용한 공정하고 지속적인 모델 비교가 가능합니다.
오류 기반 진화 전략을 통해 모델의 성능 향상을 유도할 수 있습니다.
비용 효율적이고 확장 가능한 LMM 평가 프레임워크를 제공합니다.
인간 평가와의 일치성을 검증하여 신뢰도를 높였습니다.
한계점:
사용자 시뮬레이션의 정확도에 따라 평가 결과의 신뢰도가 영향을 받을 수 있습니다.
VideoAutoArena의 자동화된 평가 시스템이 모든 종류의 비디오 분석 과제에 완벽하게 적용될 수 있는지는 추가 연구가 필요합니다.
골드 스탠다드 구축에 사용된 인간 주석의 수와 범위가 제한적일 수 있습니다. 더 많은 인간 주석 데이터가 필요할 수 있습니다.
GPT-4o를 이용한 VideoAutoBench의 평가 역시 GPT-4o의 성능에 의존적일 수 있습니다.
👍