본 논문은 견고한 시각적 품질 평가(VQualA) 대형 멀티모달 모델(LMM) 개발을 위해 다재다능함, 강력함, 전이성을 확보하고자 한다. 기존 VQualA LMM들은 단일 작업에 집중하고 전체 매개변수 미세 조정에 의존하여 특정 모달리티나 작업 유형에 과적합되어 일반화 능력과 전이성이 제한된다는 문제점을 지적한다. 이를 해결하기 위해 시각 인코더 중심의 생성 사전 학습 파이프라인과 VITAL-Series LMM을 제안한다. 450만 개 이상의 시각-언어(VL) 쌍으로 구성된 대규모 VQualA 훈련 데이터셋을 구축하고, 다중 작업 훈련 워크플로우를 통해 정량적 점수 정확도와 이미지 및 비디오 모달리티 전반의 품질 해석 능력을 향상시킨다. 또한 시각 인코더를 기반으로 효율적인 모델 확장을 구현하여, 모델의 제로샷 성능을 강화하고, 각 페어링된 디코더가 사전 학습 데이터의 1/1000 미만을 사용하여 빠르게 워밍업하여 전체 훈련된 모델과 유사한 성능을 달성할 수 있도록 한다.
시사점, 한계점
•
시사점:
◦
450만 개 이상의 시각-언어 쌍을 사용한 대규모 VQualA 훈련 데이터셋 구축.
◦
이미지 및 비디오 모달리티에 대한 정량적 점수 정확도 및 품질 해석 능력 향상.
◦
시각 인코더 기반의 효율적인 모델 확장을 통한 제로샷 성능 향상.
◦
빠른 워밍업을 통해 완전 훈련 모델과 유사한 성능 달성.
◦
VQualA를 위한 기초 LMM 개발의 기반 마련.
•
한계점:
◦
논문에서 구체적인 성능 지표 및 비교 결과에 대한 상세 정보 부족.
◦
제안하는 VITAL-Series LMM의 실제 적용 및 일반화 능력에 대한 추가적인 검증 필요.