Cet article se concentre sur la compréhension du langage parlé (SLU), qui permet aux machines de comprendre le langage parlé dans diverses applications multimédias centrées sur la parole. La SLU englobe plusieurs tâches telles que la reconnaissance automatique de la parole (RAS), la reconnaissance d'entités nommées (RNE) et l'analyse des sentiments (AS). Les méthodes existantes présentent des limites : elles utilisent des architectures de modèles distinctes pour chaque tâche, ce qui accroît la complexité du système, limite l'interaction entre les tâches et ne permet pas d'exploiter pleinement les jeux de données hétérogènes disponibles. Pour pallier ces limites, nous proposons UniSLU, un cadre unifié qui modélise conjointement plusieurs tâches SLU au sein d'une même architecture. UniSLU propose une représentation unifiée pour diverses tâches SLU, permettant une exploitation complète des jeux de données hétérogènes entre les tâches. Sur la base de cette représentation, nous proposons une méthode générative intégrée qui modélise conjointement les tâches de RAS, de RAS et d'AS, permettant une intégration transparente avec des modèles linguistiques à grande échelle afin d'améliorer l'interaction entre les tâches et d'exploiter de puissantes capacités génératives. Grâce à des expériences approfondies sur des jeux de données SLU publics, nous démontrons l'efficacité de la méthode proposée et démontrons qu'elle atteint des performances SLU supérieures à celles de plusieurs méthodes de référence. Nous prévoyons de rendre tout le code et les modèles accessibles au public sur GitHub pour faciliter les recherches futures.