Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment

Created by
  • Haebom
Category
Empty

저자

Ziheng Jia, Linhan Cao, Jinliang Han, Zicheng Zhang, Jiaying Qian, Jiarui Wang, Zijian Chen, Guangtao Zhai, Xiongkuo Min

개요

본 논문은 견고한 시각적 품질 평가(VQualA) 대형 멀티모달 모델(LMM) 개발을 위해 다재다능함, 강력함, 전이성을 확보하고자 한다. 기존 VQualA LMM들은 단일 작업에 집중하고 전체 매개변수 미세 조정에 의존하여 특정 모달리티나 작업 유형에 과적합되어 일반화 능력과 전이성이 제한된다는 문제점을 지적한다. 이를 해결하기 위해 시각 인코더 중심의 생성 사전 학습 파이프라인과 VITAL-Series LMM을 제안한다. 450만 개 이상의 시각-언어(VL) 쌍으로 구성된 대규모 VQualA 훈련 데이터셋을 구축하고, 다중 작업 훈련 워크플로우를 통해 정량적 점수 정확도와 이미지 및 비디오 모달리티 전반의 품질 해석 능력을 향상시킨다. 또한 시각 인코더를 기반으로 효율적인 모델 확장을 구현하여, 모델의 제로샷 성능을 강화하고, 각 페어링된 디코더가 사전 학습 데이터의 1/1000 미만을 사용하여 빠르게 워밍업하여 전체 훈련된 모델과 유사한 성능을 달성할 수 있도록 한다.

시사점, 한계점

시사점:
450만 개 이상의 시각-언어 쌍을 사용한 대규모 VQualA 훈련 데이터셋 구축.
이미지 및 비디오 모달리티에 대한 정량적 점수 정확도 및 품질 해석 능력 향상.
시각 인코더 기반의 효율적인 모델 확장을 통한 제로샷 성능 향상.
빠른 워밍업을 통해 완전 훈련 모델과 유사한 성능 달성.
VQualA를 위한 기초 LMM 개발의 기반 마련.
한계점:
논문에서 구체적인 성능 지표 및 비교 결과에 대한 상세 정보 부족.
제안하는 VITAL-Series LMM의 실제 적용 및 일반화 능력에 대한 추가적인 검증 필요.
다른 VQualA 모델과의 차별성을 보여주는 정량적인 분석 부족.
👍