Sign In

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

Created by
  • Haebom
Category
Empty

저자

Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci

개요

본 논문은 OpenAI의 Whisper와 같은 최신 자동 음성 인식(ASR) 모델의 인코더 부분의 높은 계산량 문제를 해결하기 위해 LiteASR이라는 저계급 압축 기법을 제안합니다. LiteASR은 중간 활성화에서 관찰되는 강력한 저계급 특성을 활용하여 PCA를 통해 선형 변환을 저계급 행렬 곱셈의 체인으로 근사하고, 감소된 차원에서 작동하도록 self-attention을 추가로 최적화합니다. 실험 결과, Whisper large-v3 인코더 크기를 50% 이상 압축하여 Whisper medium 크기와 동일하게 하면서 더 높은 정확도를 달성함으로써 효율성과 성능 측면에서 새로운 Pareto 최적 프런티어를 확립했습니다. 소스 코드는 깃허브에서 공개됩니다.

시사점, 한계점

시사점:
ASR 모델의 효율적인 배포를 위한 새로운 가능성 제시.
Whisper large-v3의 성능을 유지하면서 모델 크기를 50% 이상 감소시켜 연산량을 크게 줄임.
효율성과 정확도 간의 새로운 Pareto 최적 프런티어를 달성.
개방형 소스 코드 제공으로 연구의 재현성 및 확장성 증가.
한계점:
PCA를 사용한 저계급 근사의 정확도 한계.
특정 ASR 모델(Whisper)에 대한 최적화로 다른 모델에 대한 일반화 성능 검증 필요.
압축 과정에 필요한 캘리브레이션 데이터셋의 크기 및 품질에 대한 영향 분석 부족.
👍