Bài báo này trình bày ShizhenGPT, mô hình ngôn ngữ quy mô lớn đa phương thức (LLM) đầu tiên chuyên về Y học cổ truyền Trung Quốc (TCM). Để giải quyết tình trạng thiếu dữ liệu TCM chất lượng cao và bản chất đa phương thức của chẩn đoán TCM, bao gồm nhiều thông tin cảm giác như thị giác, thính giác, khứu giác và chẩn đoán mạch, vốn cản trở việc áp dụng các LLM hiện có vào TCM, chúng tôi đã xây dựng một tập dữ liệu TCM quy mô lớn bao gồm hơn 100 GB dữ liệu văn bản và hơn 200 GB dữ liệu đa phương thức (bao gồm 1,2 triệu hình ảnh, 200 giờ âm thanh và tín hiệu sinh lý). Sử dụng tập dữ liệu này, ShizhenGPT đã được đào tạo trước và được huấn luyện để có được kiến thức sâu rộng về TCM và khả năng suy luận đa phương thức. Kết quả đánh giá sử dụng dữ liệu Kỳ thi Chứng nhận TCM Quốc gia gần đây và các tiêu chuẩn trực quan để nhận dạng thuốc và chẩn đoán trực quan chứng minh rằng ShizhenGPT vượt trội hơn các LLM khác có quy mô tương tự và có khả năng cạnh tranh với các mô hình độc quyền quy mô lớn. Đặc biệt, trong số các LLM đa phương thức hiện có, mô hình này là mô hình tiên tiến nhất về khả năng nhận diện hình ảnh trong Y học cổ truyền Trung Quốc (TCM), thể hiện khả năng nhận diện tích hợp trên nhiều phương thức khác nhau, bao gồm âm thanh, mạch đập, khứu giác và thị giác, mở đường cho việc nhận diện và chẩn đoán Y học cổ truyền Trung Quốc đa phương thức toàn diện. Bộ dữ liệu, mô hình và mã nguồn đều được công khai.