본 논문은 금융 분야의 고객 불만 관리를 위한 다중 모달 비디오 데이터 분석 모델인 Solution 3.0을 제안한다. 433개의 공개적으로 접근 가능한 비디오 불만 데이터셋을 활용하여, 텍스트와 이미지 정보를 통합한 비디오 불만을 다섯 가지 금융 측면으로 분류하고, 해당 불만 사항을 식별하는 작업을 수행한다. Solution 3.0은 오디오 및 비디오 정보를 처리하고, 다중 레이블 측면 분류 및 불만 식별을 병렬적으로 수행하는 다중 작업 학습을 통해 고객 불만을 효과적으로 분석한다. CLIP 기반의 동결된 이중 인코더와 이미지 세그먼트 인코더(ISEC)를 사용하여 정확도와 효율성을 향상시켰으며, 기존의 다중 모달 기준 모델들보다 우수한 성능을 보였다.