Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance

Created by
  • Haebom

저자

Taehan Lee, Hyukjun Lee

개요

본 논문은 비전 트랜스포머(ViT) 기반 오디오 분류 모델에 토큰 프루닝 기법을 최초로 적용하여 계산 비용 절감과 성능 저하 간의 절충 관계를 분석한 연구입니다. Mel-spectrogram을 사용하여 오디오 데이터를 처리하고, TopK 토큰 프루닝을 통해 AudioMAE와 AST 모델의 MAC 연산을 30-40% 감소시키면서 정확도 저하는 1% 미만으로 유지하는 결과를 보였습니다. 분석 결과, 강한 세기 또는 높은 변화량을 가진 토큰뿐만 아니라 낮은 세기 또는 낮은 변화량을 가진 토큰도 중요한 역할을 한다는 것을 밝혔으며, 어텐션 점수와 통계적 특징 간의 높은 상관관계를 통해 이를 뒷받침했습니다. 또한 AudioMAE가 AST보다 더 많은 저강도 토큰을 유지하는 경향을 보이는데, 이는 AudioMAE의 자기 지도 학습 방식 때문으로 분석했습니다.

시사점, 한계점

시사점:
ViT 기반 오디오 분류 모델에서 토큰 프루닝을 통해 계산 비용을 효과적으로 줄일 수 있음을 보여줌.
오디오 데이터에서 토큰의 중요도 평가에 대한 새로운 통찰력 제공.
AudioMAE와 AST 모델의 차이점을 토큰 프루닝 관점에서 설명.
한계점:
현재 TopK 프루닝 기법에 국한된 연구임. 다른 프루닝 전략에 대한 추가 연구 필요.
분석 대상 모델이 AudioMAE와 AST로 제한됨. 다른 오디오 모델로의 일반화 가능성 검증 필요.
Mel-spectrogram을 사용하였으므로, 다른 오디오 표현 방식에 대한 추가 연구 필요.
👍