본 논문은 음성 언어 모델(SLM)의 엔드-투-엔드 학습 과정에서 발생하는 catastrophic forgetting 문제를 다룹니다. 기존의 방법은 사전 학습된 대규모 언어 모델(LLM)을 ASR, TTS, SQA 등 다양한 작업을 통해 음성 모달리티에 적응시키는 다단계 학습을 사용하는데, 이 과정에서 작업 및 데이터 분포의 차이로 인해 이전에 습득한 지식이 손실될 수 있습니다. 본 논문에서는 이러한 catastrophic forgetting 문제를 완화하기 위해 모델 병합, LoRA 스케일링 팩터 할인, 경험 재생(experience replay) 세 가지 전략을 평가하고, 경험 재생이 가장 효과적이며 다른 방법과 결합하면 더 큰 성능 향상을 가져온다는 것을 보여줍니다.