Este artículo se centra en la comprensión del lenguaje hablado (SLU), que permite a las máquinas comprender el lenguaje hablado en diversas aplicaciones multimedia centradas en el habla. SLU abarca diversas tareas, como el reconocimiento automático del habla (ASR), el reconocimiento de entidades nombradas (NER) y el análisis de sentimientos hablados (SA). Los métodos existentes presentan limitaciones, ya que utilizan arquitecturas de modelo independientes para cada tarea, lo que aumenta la complejidad del sistema, limita la interacción entre tareas y no aprovecha al máximo los conjuntos de datos heterogéneos disponibles en las distintas tareas. Para abordar estas limitaciones, proponemos UniSLU, un marco unificado que modela conjuntamente múltiples tareas de SLU dentro de una única arquitectura. UniSLU propone una representación unificada para diversas tareas de SLU, lo que permite el uso completo de conjuntos de datos heterogéneos en las distintas tareas. Basándonos en esta representación, proponemos un método generativo integrado que modela conjuntamente tareas de ASR, NER y SA, lo que facilita una integración fluida con modelos lingüísticos a gran escala para mejorar la interacción entre tareas y aprovechar las potentes capacidades generativas. Mediante experimentos exhaustivos con conjuntos de datos públicos de SLU, demostramos la eficacia del método propuesto y que logra un rendimiento de SLU superior al de varios métodos de referencia. Planeamos hacer que todo el código y los modelos estén disponibles públicamente en GitHub para facilitar la investigación futura.