Dans cet article, nous présentons une nouvelle méthode de détection de musique générée par l'IA afin de répondre aux problématiques de droits d'auteur et d'industrie musicale liées au développement des outils de génération musicale basés sur l'IA. Pour pallier les limites des détecteurs audio ou de paroles existants (généralisation et vulnérabilité au bruit des détecteurs audio, manque de données précises sur les paroles), nous proposons un pipeline de post-fusion multimodal et modulaire qui combine des paroles de chansons transcrites automatiquement avec des fonctionnalités vocales capturant les informations relatives aux paroles dans l'audio. Cette méthode exploite directement les aspects lyriques de l'audio pour améliorer la robustesse et atténuer la sensibilité aux artefacts de faible niveau, augmentant ainsi son applicabilité pratique. Les résultats expérimentaux montrent que la méthode DE-detect proposée surpasse les détecteurs de paroles existants et est plus robuste au bruit audio. Le code est disponible sur GitHub.