Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Make Some Noise: Towards LLM audio reasoning and generation using sound tokens

Created by
  • Haebom

저자

Shivam Mehta, Nebojsa Jojic, Hannes Gamper

개요

본 논문은 연속적인 오디오 데이터를 저비트레이트(0.23kpbs)의 이산 토큰으로 변환하여 대규모 언어 모델(LLM)에 통합하는 새로운 방법을 제시합니다. 이는 변분 양자화(Variational Quantization)와 조건부 흐름 매칭(Conditional Flow Matching)을 결합하여 이루어집니다. 미리 훈련된 텍스트 기반 LLM을 저랭크 적응(LoRA)을 사용하여 미세 조정하여 오디오 이해 및 생성 능력을 평가했습니다. 제안된 토크나이저는 다양한 음향 이벤트를 포함하는 여러 데이터셋에서 기존 VQ-VAE보다 우수한 성능을 보였습니다. 오디오 토크나이징 과정에서 세부 정보 손실이 발생했음에도 불구하고, 이산 토큰으로 훈련된 다중 모달 LLM은 오디오 이해 측면에서 최첨단 방법과 경쟁력 있는 결과를 달성했지만, 오디오 생성 성능은 저조했습니다.

시사점, 한계점

시사점:
변분 양자화와 조건부 흐름 매칭을 결합한 저비트레이트 오디오 토크나이징 기법을 통해 LLM에 오디오 통합이 가능함을 보여줍니다.
제한된 자원으로도 경쟁력 있는 오디오 이해 성능을 달성할 수 있음을 시사합니다.
다양한 음향 이벤트를 포함하는 데이터셋에서 기존 VQ-VAE보다 우수한 토크나이저 성능을 확인했습니다.
한계점:
오디오 생성 성능이 저조합니다.
더 크고 다양한 데이터셋과 향상된 평가 지표가 필요합니다.
오디오 토크나이징 과정에서 세부 정보의 상당한 손실이 발생합니다.
👍