Transformer 기반의 멀티모달 모델은 콘텐츠 이해 및 관련성 순위 지정을 위해 산업 규모의 추천, 검색, 광고 시스템에 널리 사용됩니다. 레이블이 지정된 학습 데이터 품질 및 크로스 모달 융합을 향상시키는 것은 모델 성능을 크게 향상시키며, 품질 조회율 및 광고 수익과 같은 주요 지표에 영향을 미칩니다. 고품질 주석은 콘텐츠 모델링을 발전시키는 데 중요하지만, 기존 통계 기반 능동 학습(AL) 방법은 과도한 자신감을 보이는 오분류를 감지하는 데 어려움을 겪고, 딥 뉴럴 네트워크에서 의미적으로 유사한 항목을 구별하는 데 덜 효과적입니다. 또한 오디오 정보는 특히 숏폼 비디오 플랫폼에서 점점 더 중요한 역할을 하고 있지만, 대부분의 사전 훈련된 멀티모달 아키텍처는 주로 텍스트와 이미지에 초점을 맞춥니다. 세 가지 모드 모두 처음부터 학습하는 것도 가능하지만, 기존의 사전 훈련된 시각-언어(VL) 및 오디오 모델을 활용하는 이점을 희생하게 됩니다. 이러한 과제를 해결하기 위해, 능동 학습 효율성을 향상시키기 위한 kNN 기반 잠재 공간 확장(LSB)과, VL 모델에 오디오를 통합하는 중간 융합 접근 방식인 오디오 향상 시각-언어 모델링(VLMAE)을 제안합니다. 이 시스템은 실제 시스템에 배포되어 상당한 비즈니스 성과를 거두었습니다.