[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Analyse médico-légale de la parole : vers l'établissement et l'analyse d'un ensemble complet de données synthétiques sur la parole

Created by
  • Haebom

Auteur

Zhoulin Ji, Chenhao Lin, Hang Wang, Chao Shen

Contour

Afin de surmonter les limites des différents ensembles de données d'analyse de la parole synthétique, la distinction entre parole réelle et parole synthétique devenant de plus en plus importante en raison du risque croissant de fausses informations et d'usurpation d'identité, nous proposons un ensemble de données d'analyse forensique de la parole couvrant largement des échantillons de parole réels, synthétiques et partiellement falsifiés, contenant de multiples segments synthétisés par divers algorithmes de haute qualité. De plus, nous proposons un réseau de localisation temporelle de la parole (TEST) qui effectue simultanément la vérification d'authenticité, la localisation de multiples faux segments et la reconnaissance d'algorithmes synthétiques sans post-traitement complexe. TEST intègre efficacement LSTM et Transformer pour extraire des représentations temporelles robustes de la parole et estime les segments synthétiques à l'aide d'une prédiction dense sur des caractéristiques pyramidales multi-échelles. Le modèle proposé atteint un mAP moyen de 83,55 % et un EER de 5,25 % au niveau de l'énoncé, ainsi qu'un EER de 1,07 % et un score F1 de 92,19 % au niveau du segment, soulignant sa robustesse pour une analyse complète de la parole synthétique.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouvel ensemble de données Speech-Forensics contenant différents types de discours synthétiques générés par divers algorithmes de haute qualité.
Proposer un réseau TEST efficace qui effectue simultanément la vérification de l'authenticité, la détection de l'emplacement des faux segments et la reconnaissance d'algorithmes synthétiques.
Il représente une avancée significative dans le domaine de l'analyse de la parole synthétique, atteignant une grande précision (mAP au niveau de l'énoncé 83,55 %, EER 5,25 % ; EER au niveau du segment 1,07 %, F1 92,19 %).
Fournit une base utile pour les futures recherches sur l’analyse de la voix synthétique et les applications pratiques.
Limitations:
Manque d'informations spécifiques sur la taille et la diversité de l'ensemble de données (taille de l'ensemble de données, types et proportions des différents algorithmes de synthèse, etc.)
Une vérification supplémentaire des performances de généralisation du modèle proposé est nécessaire (résistance à divers environnements, bruit, etc.)
Manque d'évaluation des performances sur des données vocales complexes du monde réel (par exemple, bruit de fond, chevauchement, etc.)
👍