COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework
Created by
Haebom
저자
Xin Dong, Sen Jia, Ming Rui Wang, Yan Li, Zhenheng Yang, Bingfeng Deng, Hongyu Xiong
개요
본 논문은 멀티모달 대규모 언어 모델(MLLM)을 활용한 비디오 품질 이해를 위한 새로운 캐스케이드 프레임워크인 COEF-VQ를 제안합니다. COEF-VQ는 엔트로피 기반의 사전 필터링 단계를 통해 불확실성이 높은 샘플을 우선적으로 심층 분석하여 GPU 사용량을 크게 줄이면서 MLLM의 강력한 분류 성능을 유지합니다. 짧은 비디오 플랫폼의 비디오 관리 플랫폼(VMP)에 COEF-VQ를 배포하여 비디오 품질 이해와 관련된 두 가지 사내 작업에 대한 실험을 수행한 결과, 오프라인 평가에서 상당한 성능 향상을 보였으며, 온라인 A/B 테스트에서 부적절한 콘텐츠 비디오 시청률을 9.9% 감소시키는 등 플랫폼 안전성을 효과적으로 향상시켰습니다. 출시 후 모니터링을 통해 지속적인 성능 개선이 확인되었습니다.
시사점, 한계점
•
시사점:
◦
MLLM의 높은 GPU 자원 요구량 문제를 효과적으로 해결하는 새로운 캐스케이드 프레임워크를 제시.
◦
엔트로피 기반 사전 필터링을 통해 계산 효율성을 크게 향상시키면서 분류 성능을 유지.
◦
실제 짧은 비디오 플랫폼에 적용하여 부적절한 콘텐츠 감소 및 플랫폼 안전성 향상에 기여.
◦
온라인 A/B 테스트를 통해 실제 환경에서의 효과를 검증.
•
한계점:
◦
제안된 프레임워크의 성능은 사용되는 MLLM과 사전 필터링 모델의 성능에 의존적일 수 있음.
◦
본 논문에서 사용된 두 가지 사내 작업 이외의 다른 작업에 대한 일반화 성능은 추가 연구가 필요함.
◦
엔트로피 기반 사전 필터링의 최적 파라미터 설정에 대한 추가적인 연구가 필요할 수 있음.
◦
사내 데이터에 대한 의존성으로 인해 다른 플랫폼이나 데이터셋으로의 일반화 가능성에 대한 검증이 필요함.