Este artículo propone un sistema ligero, multimodal y multiramificado que integra información de voz y texto para predecir el riesgo de suicidio en adolescentes. A diferencia de estudios previos que se basan únicamente en formas de onda en el dominio temporal, nuestro sistema aprovecha características acústicas y representaciones semánticas tanto en el dominio temporal como en el dominio tiempo-frecuencia. Además, introducimos un bloque de fusión dinámica que ajusta dinámicamente la contribución de cada modalidad, integrando adaptativamente la información de diversas modalidades. Simplificamos los modelos existentes para mejorar la eficiencia computacional, y los resultados experimentales muestran una reducción del 78 % en los parámetros del modelo y una mejora del 5 % en la precisión en comparación con los sistemas existentes. Esta investigación se realizó con base en el reto de detección SpeechWellness.