대규모 오디오 언어 모델(LALM)은 다양한 작업에서 뛰어난 성능을 보이지만, 어텐션의 2차 복잡도와 오디오 신호의 높은 토큰 비율로 인해 확장성에 제한이 있다. 본 논문에서는 LALM의 오디오 인코더에서 생성되는 오디오 토큰 수를 줄이기 위해 무감독 세분화, 균일 평균 풀링 등의 기술을 탐구하고, 압축된 표현으로 인한 성능 저하를 완화하기 위해 저랭크 어댑터를 사용하여 모델을 미세 조정한다. 자동 음성 인식 및 음성-음성 번역 작업을 통해 제안된 모델을 평가하며, 다운샘플링이 이러한 작업에 미치는 영향을 연구한다. 실험 결과, 압축된 LALM은 LLM 백본 전에 최대 3배까지 입력 오디오 토큰 수를 줄이면서도 프레임 레벨 LALM에 가까운 성능을 달성할 수 있음을 보여준다.