Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Created by
  • Haebom
Category
Empty

저자

Yu Sun, Yin Li, Ruixiao Sun, Chunhui Liu, Fangming Zhou, Ze Jin, Linjie Wang, Xiang Shen, Zhuolin Hao, Hongyu Xiong

개요

Transformer 기반의 다중 모달 모델은 콘텐츠 이해 및 관련성 순위 매김을 위해 산업 규모의 추천, 검색 및 광고 시스템에서 널리 사용됩니다. 레이블이 지정된 훈련 데이터의 품질 향상과 크로스 모달 융합은 모델 성능을 크게 향상시켜 품질 조회율 및 광고 수익과 같은 주요 지표에 영향을 미칩니다. 고품질 주석은 콘텐츠 모델링 발전에 중요하지만, 기존의 통계 기반의 능동 학습(AL) 방법은 과신 오분류를 감지하는 데 어려움을 겪고 심층 신경망에서 의미적으로 유사한 항목을 구별하는 데 효과적이지 않습니다. 또한, 특히 짧은 비디오 플랫폼에서 오디오 정보의 역할이 증가하고 있지만, 대부분의 사전 훈련된 다중 모달 아키텍처는 텍스트와 이미지에 중점을 둡니다. 모든 세 가지 모달리티에 대해 처음부터 훈련하는 것이 가능하지만, 기존의 사전 훈련된 시각-언어(VL) 및 오디오 모델을 활용하는 이점을 희생합니다. 이러한 과제를 해결하기 위해, 본 논문에서는 AL 효율성을 높이기 위한 kNN 기반 잠재 공간 확장(LSB)과 오디오 향상 기능을 갖춘 시각-언어 모델링(VLMAE)을 제안합니다. VLMAE는 오디오를 VL 모델에 통합하는 중간 융합 방식입니다. 이 시스템은 실제 시스템에 배포되어 상당한 사업적 이익을 가져왔습니다.

시사점, 한계점

시사점:
kNN 기반 LSB를 활용한 효율적인 능동 학습 전략 제시.
오디오 정보를 통합하는 VLMAE를 통해 다중 모달 모델 성능 향상.
실제 시스템 배포를 통한 상당한 사업적 이익 증명.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
특정 산업 환경에 최적화된 시스템으로, 다른 도메인으로의 적용 가능성에 대한 추가 검증 필요.
kNN-based LSB 및 VLMAE의 구체적인 성능 비교 분석 및 다른 AL 방법과의 비교 부족.
👍