Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Audio Token Compression in Large Audio Language Models

Created by
  • Haebom
Category
Empty

저자

Saurabhchand Bhati, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

개요

대규모 오디오 언어 모델(LALM)은 다양한 작업에서 뛰어난 성능을 보이지만, 어텐션의 2차 복잡도와 오디오 신호의 높은 토큰 비율로 인해 확장성에 제한이 있다. 본 논문에서는 LALM의 오디오 인코더에서 생성되는 오디오 토큰 수를 줄이기 위해 무감독 세분화, 균일 평균 풀링 등의 기술을 탐구하고, 압축된 표현으로 인한 성능 저하를 완화하기 위해 저랭크 어댑터를 사용하여 모델을 미세 조정한다. 자동 음성 인식 및 음성-음성 번역 작업을 통해 제안된 모델을 평가하며, 다운샘플링이 이러한 작업에 미치는 영향을 연구한다. 실험 결과, 압축된 LALM은 LLM 백본 전에 최대 3배까지 입력 오디오 토큰 수를 줄이면서도 프레임 레벨 LALM에 가까운 성능을 달성할 수 있음을 보여준다.

시사점, 한계점

시사점:
LALM의 오디오 토큰 수를 줄여 확장성을 향상시킬 수 있는 방법을 제시함.
저랭크 어댑터를 사용하여 압축으로 인한 성능 저하를 완화함.
자동 음성 인식 및 음성-음성 번역 작업에서 제안된 방법의 효과를 입증함.
한계점:
구체적인 기술적 세부 사항(예: 무감독 세분화 방법, 풀링 방법, 저랭크 어댑터 설정)에 대한 설명이 부족할 수 있음.
다른 LALM 아키텍처 및 작업에 대한 일반화 가능성이 추가 연구를 통해 밝혀져야 함.
Edge device와 같은 자원 제약 환경에서의 실제 배포에 대한 추가적인 실험과 분석이 필요할 수 있음.
👍