Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Reconnaissance d'entités nommées opioïdes (ONER-2025) de Reddit

Created by
  • Haebom

Auteur

Muhammad Ahmad, Rita Orji, Fida Ullah, Ildar Batyrshin, Grigori Sidorov

Contour

Cet article propose d'analyser des données non structurées provenant de plateformes de médias sociaux comme Reddit afin de résoudre la crise des overdoses d'opioïdes, un grave problème de santé publique aux États-Unis. En nous appuyant sur les données des utilisateurs de Reddit partageant leurs expériences de consommation d'opioïdes, nous extrayons des informations grâce à une technique de traitement automatique du langage (TALN) exploitant la reconnaissance d'entités nommées d'opioïdes (ONER-2025). Nous construisons un ensemble de données unique, annoté manuellement, de 331 285 jetons et détaillons le processus d'annotation et les défis qui y sont associés, englobant huit catégories clés d'entités opioïdes. De plus, nous analysons les difficultés linguistiques liées aux discussions sur les opioïdes, telles que l'argot, l'ambiguïté, les phrases fragmentées et le langage chargé d'émotion. Nous proposons un système de surveillance en temps réel intégrant l'apprentissage automatique, l'apprentissage profond, des modèles de langage basés sur Transformer et des intégrations contextuelles avancées. Dans 11 expériences menées avec une validation croisée en 5 étapes, les modèles basés sur Transformer tels que bert-base-NER et roberta-base ont atteint une précision de 97 % et un score F1, ce qui représente une performance supérieure de 10,23 % à celle du modèle de base (RF = 0,88).

Takeaways, Limitations

Takeaways:
Présentation de la possibilité de développer un système de surveillance et de prévention des crises de surdose d’opioïdes utilisant les données des médias sociaux.
Démontrer l'efficacité de l'extraction et de l'analyse des informations liées aux opioïdes grâce à la construction de l'ensemble de données ONER-2025 et à l'application de techniques PNL.
Les performances supérieures des modèles basés sur des transformateurs démontrent le potentiel d’amélioration de la précision des systèmes de surveillance en temps réel.
Proposer des orientations de recherche futures à travers l’analyse des caractéristiques linguistiques liées aux opioïdes.
Limitations:
La nécessité d’examiner les biais et la généralisabilité des données de Reddit.
Des recherches supplémentaires sont nécessaires sur l’application pratique et l’efficacité des systèmes de surveillance en temps réel.
Dégradation possible des performances du modèle en raison des limitations de la taille et de la diversité des ensembles de données.
Des recherches supplémentaires sont nécessaires pour explorer l’applicabilité de cette étude à d’autres plateformes de médias sociaux ou sources de données.
👍