Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Created by
  • Haebom

저자

Yu Sun, Yin Li, Ruixiao Sun, Chunhui Liu, Fangming Zhou, Ze Jin, Linjie Wang, Xiang Shen, Zhuolin Hao, Hongyu Xiong

개요

Transformer 기반의 멀티모달 모델은 콘텐츠 이해 및 관련성 순위 지정을 위해 산업 규모의 추천, 검색, 광고 시스템에 널리 사용됩니다. 레이블이 지정된 학습 데이터 품질 및 크로스 모달 융합을 향상시키는 것은 모델 성능을 크게 향상시키며, 품질 조회율 및 광고 수익과 같은 주요 지표에 영향을 미칩니다. 고품질 주석은 콘텐츠 모델링을 발전시키는 데 중요하지만, 기존 통계 기반 능동 학습(AL) 방법은 과도한 자신감을 보이는 오분류를 감지하는 데 어려움을 겪고, 딥 뉴럴 네트워크에서 의미적으로 유사한 항목을 구별하는 데 덜 효과적입니다. 또한 오디오 정보는 특히 숏폼 비디오 플랫폼에서 점점 더 중요한 역할을 하고 있지만, 대부분의 사전 훈련된 멀티모달 아키텍처는 주로 텍스트와 이미지에 초점을 맞춥니다. 세 가지 모드 모두 처음부터 학습하는 것도 가능하지만, 기존의 사전 훈련된 시각-언어(VL) 및 오디오 모델을 활용하는 이점을 희생하게 됩니다. 이러한 과제를 해결하기 위해, 능동 학습 효율성을 향상시키기 위한 kNN 기반 잠재 공간 확장(LSB)과, VL 모델에 오디오를 통합하는 중간 융합 접근 방식인 오디오 향상 시각-언어 모델링(VLMAE)을 제안합니다. 이 시스템은 실제 시스템에 배포되어 상당한 비즈니스 성과를 거두었습니다.

시사점, 한계점

시사점:
kNN 기반 LSB를 활용하여 능동 학습의 효율성 향상
VLMAE를 통한 오디오 정보의 통합으로 멀티모달 모델 성능 향상
실제 시스템 배포를 통해 비즈니스 성과 입증
한계점:
구체적인 LSB 및 VLMAE 구현 방식에 대한 상세 정보 부족
다른 멀티모달 모델과의 비교 및 성능 평가에 대한 정보 부족
오디오 데이터의 특성과 오디오 처리 과정에 대한 상세 정보 부족
👍