본 논문은 오디오 인식 대규모 언어 모델(ALLM)의 한계점을 해결하기 위해, 백본 LLM을 활용한 합성 데이터 생성 프레임워크인 BALSa를 제안한다. 기존 ALLM 학습 방식은 재앙적 망각 및 환각 문제, 그리고 많은 양의 데이터가 필요하다는 단점을 가지는데, BALSa는 백본 LLM을 통해 대조 학습 방식의 데이터를 생성하여 이러한 문제들을 해결한다. 특히, 본 연구는 여러 오디오 입력에 대한 차이점 설명이나 통합 설명을 가능하게 함으로써 오디오-언어 정합을 향상시킨다. 실험 결과, BALSa는 오디오 환각을 완화하고 오디오 이해 및 추론 벤치마크에서 강력한 성능을 유지하며, 지시 사항 따르기 능력도 유지하는 것을 보여준다.