Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Created by
  • Haebom

저자

Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang

개요

본 논문은 고품질의 대규모 오디오 캡셔닝을 위한 새로운 두 단계 자동화 파이프라인을 제시한다. 기존 방법들의 세밀한 디테일과 맥락 정확성 부족 문제를 해결하기 위해, 사람의 청각 인지 능력에서 영감을 얻어 다양한 맥락적 단서(음성, 음악, 일반적인 소리, 관련 비디오의 시각 정보 등)를 추출하는 전문적으로 사전 훈련된 모델을 사용한다. 그 후, 대규모 언어 모델(LLM)을 이용하여 이러한 풍부한 다중 모달 입력을 종합하여 세부적이고 맥락을 고려한 오디오 캡션을 생성한다. 주요 기여는 세밀한 오디오 캡션 생성을 위한 확장 가능한 방법, 120만 개의 상세 캡션과 600만 개의 QA 쌍으로 구성된 새로운 대규모 데이터셋 FusionAudio, 그리고 FusionAudio를 사용하여 개발된 향상된 오디오 모델(우수한 오디오-텍스트 정렬 및 지시 사항 따르기를 갖춘 CLAP 기반 오디오 인코더)이다.

시사점, 한계점

시사점:
고품질의 대규모 오디오 캡셔닝을 위한 새로운 접근 방식 제시
세밀하고 맥락을 고려한 오디오 캡션 생성 가능
새로운 대규모 다중 모달 데이터셋 FusionAudio 공개
성능이 향상된 CLAP 기반 오디오 인코더 개발
복잡한 오디오 환경에 대한 더욱 정교하고 정확한 자동 이해 가능성 제시
한계점:
FusionAudio 데이터셋의 균형 및 편향성에 대한 자세한 분석 부족
제안된 방법의 일반화 성능에 대한 추가적인 평가 필요
특정 유형의 오디오에 대한 성능 저하 가능성 존재 (명시적으로 언급되지는 않았으나, 모든 유형의 오디오에 대해 동일한 성능을 보장할 수 없음)
LLM 의존성으로 인한 계산 비용 및 자원 소모 문제 발생 가능성.
👍