Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ShizhenGPT : Vers des masters multimodaux en médecine traditionnelle chinoise

Created by
  • Haebom

Auteur

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

Contour

Cet article présente ShizhenGPT, le premier modèle linguistique multimodal à grande échelle (MLM) spécialisé en médecine traditionnelle chinoise (MTC). Pour pallier le manque de données MTC de haute qualité et la nature multimodale du diagnostic MTC, qui englobe diverses informations sensorielles telles que la vision, l'ouïe, l'odorat et le pouls, qui entravent l'application des LLM existants à la MTC, nous avons construit un ensemble de données MTC à grande échelle composé de plus de 100 Go de données textuelles et de plus de 200 Go de données multimodales (dont 1,2 million d'images, 200 heures d'audio et des signaux physiologiques). À partir de cet ensemble de données, ShizhenGPT a été pré-entraîné et entraîné pour acquérir des connaissances approfondies en MTC et des capacités d'inférence multimodale. Les résultats d'évaluation utilisant les données récentes de l'examen national de qualification en MTC et des repères visuels pour la reconnaissance des médicaments et le diagnostic visuel démontrent que ShizhenGPT surpasse les autres LLM de taille similaire et est compétitif par rapport aux modèles propriétaires à grande échelle. En particulier, parmi les LLM multimodaux existants, ce modèle est le plus avancé en compréhension visuelle en médecine traditionnelle chinoise (MTC), démontrant des capacités de reconnaissance intégrées dans diverses modalités, notamment l'ouïe, le pouls, l'odorat et la vue, ouvrant la voie à une reconnaissance et un diagnostic multimodaux holistiques en MTC. L'ensemble de données, le modèle et le code sont accessibles au public.

Takeaways, Limitations

Takeaways:
Le développement de ShizhenGPT, le premier LLM multimodal spécialisé en médecine traditionnelle chinoise, offre de nouvelles possibilités pour la recherche et le diagnostic en MTC.
La constitution d’un ensemble de données TCM à grande échelle fournit une base importante pour les futures recherches liées à la TCM.
Une approche holistique de la MTC est possible grâce à la capacité de traiter diverses informations modales de manière intégrée.
La recherche et le développement continus sont possibles grâce à des ensembles de données, des modèles et des codes ouverts.
Limitations:
Il peut encore y avoir un écart de performance par rapport aux modèles exclusifs à grande échelle.
Un examen plus approfondi de la qualité et de l’équilibre de l’ensemble de données est nécessaire.
Une application et une validation dans des environnements cliniques réels sont nécessaires.
Des recherches supplémentaires sont nécessaires sur le pouvoir explicatif et interprétatif des processus d’intégration d’informations multimodales.
👍