본 논문은 오디오 입력을 이해하고 처리하는 오디오 인식 대규모 언어 모델(ALLM)의 두 가지 주요 한계점, 즉 기존 지식의 손실(catastrophic forgetting)과 오디오-언어 간 정렬을 위한 대규모 데이터 필요성을 해결하는 새로운 방법을 제시합니다. 기존 ALLM은 오디오 관련 작업에 대한 추가 학습을 통해 텍스트 기반 LLM에서 적응되는데, 이 과정에서 중요한 텍스트 처리 능력이 상실되거나, 존재하지 않는 소리를 생성하는 등의 문제가 발생합니다. 본 논문에서는 백본 LLM을 활용하여 일반 목적의 캡션 스타일 정렬 데이터를 합성하는 BALSa(Bootstrapping Audio-Language Alignment via Synthetic Data Generation from backbone LLMs) 기법을 제안합니다. 또한, LISTEN(Learning to Identify Sounds Through Extended Negative Samples)이라는 대조 학습 방식을 통해 ALLM의 소리 식별 능력을 향상시키고, BALSa를 다중 오디오 시나리오로 확장하여 모델의 이해력과 추론 능력을 향상시킵니다. 실험 결과, 제안된 방법은 오디오 환각을 효과적으로 완화하면서 오디오 이해, 추론 및 지시 따르기 능력을 유지하는 것으로 나타났습니다.