Cet article s'appuie sur le besoin croissant de méthodes précises pour détecter la musique générée par l'IA, en raison des progrès des outils de génération musicale basés sur l'IA. Nous soulignons que les méthodes de détection audio existantes peinent à être généralisées aux nouveaux générateurs ou aux sons bruyants, et que les méthodes utilisant des données de paroles précises et bien formées présentent également des limites dans leurs applications pratiques. Par conséquent, cette étude propose une nouvelle méthode pour détecter la musique générée par l'IA en convertissant les chansons en parole à l'aide d'un modèle général de reconnaissance automatique de la parole (RAS), puis en utilisant plusieurs détecteurs. Les résultats expérimentaux sur des paroles de différents genres et langues montrent que les modèles utilisant les intégrations Whisper large-v2 et LLM2Vec sont performants et plus robustes au bruit audio et à divers générateurs de musique que les méthodes audio existantes. Le code est disponible sur GitHub.