Transformer 기반의 다중 모달 모델은 콘텐츠 이해 및 관련성 순위 매김을 위해 산업 규모의 추천, 검색 및 광고 시스템에서 널리 사용됩니다. 레이블이 지정된 훈련 데이터의 품질 향상과 크로스 모달 융합은 모델 성능을 크게 향상시켜 품질 조회율 및 광고 수익과 같은 주요 지표에 영향을 미칩니다. 고품질 주석은 콘텐츠 모델링 발전에 중요하지만, 기존의 통계 기반의 능동 학습(AL) 방법은 과신 오분류를 감지하는 데 어려움을 겪고 심층 신경망에서 의미적으로 유사한 항목을 구별하는 데 효과적이지 않습니다. 또한, 특히 짧은 비디오 플랫폼에서 오디오 정보의 역할이 증가하고 있지만, 대부분의 사전 훈련된 다중 모달 아키텍처는 텍스트와 이미지에 중점을 둡니다. 모든 세 가지 모달리티에 대해 처음부터 훈련하는 것이 가능하지만, 기존의 사전 훈련된 시각-언어(VL) 및 오디오 모델을 활용하는 이점을 희생합니다. 이러한 과제를 해결하기 위해, 본 논문에서는 AL 효율성을 높이기 위한 kNN 기반 잠재 공간 확장(LSB)과 오디오 향상 기능을 갖춘 시각-언어 모델링(VLMAE)을 제안합니다. VLMAE는 오디오를 VL 모델에 통합하는 중간 융합 방식입니다. 이 시스템은 실제 시스템에 배포되어 상당한 사업적 이익을 가져왔습니다.
시사점, 한계점
•
시사점:
◦
kNN 기반 LSB를 활용한 효율적인 능동 학습 전략 제시.
◦
오디오 정보를 통합하는 VLMAE를 통해 다중 모달 모델 성능 향상.
◦
실제 시스템 배포를 통한 상당한 사업적 이익 증명.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
◦
특정 산업 환경에 최적화된 시스템으로, 다른 도메인으로의 적용 가능성에 대한 추가 검증 필요.
◦
kNN-based LSB 및 VLMAE의 구체적인 성능 비교 분석 및 다른 AL 방법과의 비교 부족.