Sign In

TAIL: Text-Audio Incremental Learning

Created by
  • Haebom
Category
Empty

저자

Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann

개요

본 논문은 텍스트와 오디오를 결합한 다중 모달 정보 처리에서 새로운 데이터셋에 대한 모델의 일반화 능력 저하(catastrophic forgetting) 문제와 큰 모델 파라미터의 훈련 성능 저하 문제를 해결하기 위해, 텍스트-오디오 증분 학습(TAIL)이라는 새로운 과제를 제시하고, 프롬프트 튜닝 기반의 새로운 방법인 PTAT을 제안합니다. PTAT는 프롬프트 튜닝을 통해 모델 파라미터를 최적화하고, 오디오-텍스트 유사성 및 특징 증류 모듈을 활용하여 catastrophic forgetting을 효과적으로 완화합니다. AudioCaps, Clotho, BBC Sound Effects, Audioset 데이터셋을 이용한 실험 결과, 기존 증분 학습 방법보다 성능이 우수하며, 특히 기존 데이터셋에 대한 망각 현상에 대한 저항력이 강함을 보였습니다. 전체 파라미터 미세 조정 방법(Sequential)과 비교하여, PTAT는 2.42%의 파라미터만 사용하면서 4.46% 높은 성능을 달성했습니다.

시사점, 한계점

시사점:
텍스트-오디오 증분 학습(TAIL)이라는 새로운 과제를 제시하고, catastrophic forgetting 문제를 효과적으로 해결하는 PTAT 방법을 제안.
프롬프트 튜닝을 통해 파라미터 효율성을 높이고 성능을 향상시킬 수 있음을 보임.
다양한 데이터셋에서 기존 방법보다 우수한 성능을 달성.
한계점:
제안된 방법의 일반화 능력에 대한 추가적인 분석이 필요.
더 다양하고 대규모의 데이터셋에 대한 실험이 필요.
프롬프트 튜닝의 하이퍼파라미터 최적화에 대한 추가적인 연구가 필요.
👍