Bài báo này trình bày một mô hình phân loại bệnh da tự động dựa trên học sâu, dựa trên tập dữ liệu gồm hơn 50 bệnh da khác nhau được ghi lại bằng thiết bị di động. Không giống như các nghiên cứu trước đây chủ yếu tập trung vào tập dữ liệu hình ảnh vi mô và một số loại bệnh hạn chế, nghiên cứu này sử dụng tập dữ liệu bệnh da đa dạng, phản ánh các điều kiện thực tế để có cách tiếp cận thực tế hơn. Sau khi đánh giá một số kiến trúc CNN và Transformer, chúng tôi xác nhận rằng các mô hình Transformer, chẳng hạn như Swin Transformer, nắm bắt hiệu quả thông tin ngữ cảnh toàn cầu và thể hiện hiệu suất vượt trội. Hơn nữa, chúng tôi tận dụng Grad-CAM để nâng cao khả năng diễn giải các dự đoán của mô hình và đảm bảo tính minh bạch của mô hình bằng cách trực quan hóa các vùng quan trọng về mặt lâm sàng. Điều này mở đường cho việc sàng lọc và chẩn đoán sớm bệnh da dựa trên AI, ngay cả trong điều kiện thiếu nguồn lực.