Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploration des lois d'échelle pour les modèles de fondation du DSE

Created by
  • Haebom

Auteur

Sheng Zhang, Qin Liu, Naoto Usuyama, Cliff Wong, Tristan Naumann, Hoifung Poon

Contour

Cet article présente la première étude empirique visant à déterminer si les lois d'échelle des modèles de langage à grande échelle (LLM) peuvent être appliquées aux modèles basés sur les dossiers médicaux électroniques (DME). À l'aide de données de séries chronologiques de patients issues de la base de données MIMIC-IV, nous avons entraîné des architectures Transformer avec différentes tailles de modèle et budgets de calcul. Nous avons observé des schémas d'échelle cohérents, notamment une courbe IsoFLOPs quadratique et une relation de puissance entre le calcul, les paramètres du modèle, la taille des données et l'utilité clinique. Cela démontre que les modèles de DME présentent un comportement d'échelle similaire à celui des LLM, fournissant des informations prédictives pour des stratégies d'apprentissage économes en ressources. Par conséquent, cette étude pose les bases du développement de modèles robustes basés sur les DME, capables de transformer les tâches de prédiction clinique et de faire progresser la médecine personnalisée.

Takeaways, Limitations

Takeaways:
Nous avons confirmé empiriquement qu’une loi d’échelle similaire à celle du LLM existe dans les modèles basés sur le DSE.
En élucidant les relations entre les ressources informatiques, la taille du modèle, la taille des données et l’utilité clinique, nous contribuons à l’établissement de stratégies de formation de modèles économes en ressources.
Il pose les bases du développement de modèles robustes basés sur le DSE qui peuvent contribuer à l’avancement de la prédiction clinique et de la médecine personnalisée.
Limitations:
ÉTant donné que l’étude a été menée à l’aide d’une seule base de données MIMIC-IV, des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d’autres ensembles de données EHR.
ÉTant donné que cette étude est limitée à une architecture spécifique (Transformer), l’applicabilité de la loi d’échelle à d’autres architectures doit être vérifiée.
Il est nécessaire d’assurer la diversité des indicateurs d’évaluation de l’utilité clinique et d’établir des critères d’évaluation objectifs.
👍