Dans cet article, nous proposons BALSa, un framework de génération de données synthétiques utilisant le LLM de base, pour résoudre le problème du modèle de langage à grande échelle (ALLM) de reconnaissance audio. La méthode d'apprentissage ALLM actuelle présente des inconvénients : oublis catastrophiques et problèmes d'hallucinations, et nécessite une grande quantité de données. BALSa résout ces problèmes en générant des données par apprentissage contrastif grâce au LLM de base. Plus particulièrement, cette étude améliore la correspondance audio-langue en permettant des explications différentielles ou intégrées pour plusieurs entrées audio. Les résultats expérimentaux montrent que BALSa atténue les hallucinations audio et maintient d'excellentes performances aux tests de compréhension et d'inférence audio, tout en préservant la capacité à suivre les instructions.