Cet article propose un système léger, multibranches et multimodal intégrant les informations vocales et textuelles pour prédire le risque de suicide chez les adolescents. Contrairement aux études précédentes qui s'appuyaient uniquement sur des formes d'onde temporelles, notre système exploite à la fois des caractéristiques acoustiques temporelles et temporelles fréquentielles, ainsi que des représentations sémantiques. De plus, nous introduisons un bloc de fusion dynamique qui ajuste dynamiquement la contribution de chaque modalité, intégrant de manière adaptative les informations issues de diverses modalités. Nous simplifions les modèles existants pour améliorer l'efficacité de calcul, et les résultats expérimentaux montrent une réduction de 78 % des paramètres du modèle et une amélioration de 5 % de la précision par rapport aux systèmes existants. Cette recherche a été menée sur la base du défi de détection SpeechWellness.