FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation
Created by
Haebom
저자
Zheqi He, Yesheng Liu, Jing-shu Zheng, Xuejing Li, Jin-Ge Yao, Bowen Qin, Richeng Xuan, Xi Yang
개요
FlagEvalMM은 시각-언어 이해 및 생성 작업(예: 시각적 질문 응답, 텍스트-이미지/비디오 생성, 이미지-텍스트 검색) 전반에 걸쳐 다양한 다중 모드 모델을 종합적으로 평가하도록 설계된 오픈 소스 평가 프레임워크입니다. 모델 추론을 독립적인 평가 서비스를 통해 분리하여 유연한 자원 할당과 새로운 작업 및 모델의 원활한 통합을 가능하게 합니다. 또한, 고급 추론 가속 도구(예: vLLM, SGLang)와 비동기 데이터 로딩을 활용하여 평가 효율성을 크게 향상시킵니다. 광범위한 실험을 통해 FlagEvalMM이 모델의 강점과 한계에 대한 정확하고 효율적인 통찰력을 제공하여 다중 모드 연구 발전에 귀중한 도구임을 보여줍니다. 해당 프레임워크는 https://github.com/flageval-baai/FlagEvalMM 에서 공개적으로 접근 가능합니다.