Cet article présente ShizhenGPT, le premier modèle linguistique multimodal à grande échelle (MLM) spécialisé en médecine traditionnelle chinoise (MTC). Pour pallier le manque de données MTC de haute qualité et la nature multimodale du diagnostic MTC, qui englobe diverses informations sensorielles telles que la vision, l'ouïe, l'odorat et le pouls, qui entravent l'application des LLM existants à la MTC, nous avons construit un ensemble de données MTC à grande échelle composé de plus de 100 Go de données textuelles et de plus de 200 Go de données multimodales (dont 1,2 million d'images, 200 heures d'audio et des signaux physiologiques). À partir de cet ensemble de données, ShizhenGPT a été pré-entraîné et entraîné pour acquérir des connaissances approfondies en MTC et des capacités d'inférence multimodale. Les résultats d'évaluation utilisant les données récentes de l'examen national de qualification en MTC et des repères visuels pour la reconnaissance des médicaments et le diagnostic visuel démontrent que ShizhenGPT surpasse les autres LLM de taille similaire et est compétitif par rapport aux modèles propriétaires à grande échelle. En particulier, parmi les LLM multimodaux existants, ce modèle est le plus avancé en compréhension visuelle en médecine traditionnelle chinoise (MTC), démontrant des capacités de reconnaissance intégrées dans diverses modalités, notamment l'ouïe, le pouls, l'odorat et la vue, ouvrant la voie à une reconnaissance et un diagnostic multimodaux holistiques en MTC. L'ensemble de données, le modèle et le code sont accessibles au public.