Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

InterFeat : un pipeline pour trouver des caractéristiques scientifiques intéressantes

Created by
  • Haebom

Auteur

Dan Ofer, Michal Linial, Dafna Shahaf

Contour

Cet article présente un pipeline intégré permettant de découvrir automatiquement des hypothèses simples et intéressantes (relations caractéristique-cible avec direction de l'effet et mécanismes sous-jacents potentiels) à partir de données biomédicales structurées. Ce pipeline combine l'apprentissage automatique, les graphes de connaissances, la recherche bibliographique et des modèles de langage à grande échelle pour formaliser l'« intérêt » comme une combinaison de nouveauté, d'utilité et de pertinence. Lors d'expériences menées sur huit maladies majeures de la UK Biobank, le pipeline proposé a systématiquement identifié les facteurs de risque des années avant leur apparition dans la littérature. 45 à 53 % des meilleurs candidats ont été validés comme intéressants, contre 0 à 7 % pour la base de référence basée sur SHAP. Au total, 28 % des 109 candidats ont été jugés intéressants par les experts médicaux. Ce pipeline relève le défi de rendre l'« intérêt » évolutif et opérationnel pour toutes les cibles, et les données et le code sont accessibles au public ( https://github.com/LinialLab/InterFeat ).

Takeaways, Limitations_

Takeaways:
Un nouveau pipeline permettant de découvrir automatiquement des hypothèses intéressantes à partir de données biomédicales est présenté.
Découvrez de nouveaux facteurs de risque avec une précision bien supérieure aux méthodes existantes.
Une nouvelle méthode de mesure et d’évaluation quantitative de « l’intérêt » est présentée.
Assurer la reproductibilité et l’évolutivité grâce à la divulgation des données et du code.
Limitations:
La définition de « intéressant » peut être subjective et repose dans une certaine mesure sur le jugement d’un expert.
Les performances du pipeline peuvent varier en fonction de la qualité et de la quantité des données.
Optimisé pour des types de données spécifiques et peut avoir des limites dans son application à d'autres types de données.
👍