Este artículo propone un marco de análisis de imágenes basado en dispositivos móviles para el diagnóstico temprano de la arsenicosis, un grave problema de salud pública en el sur y sudeste asiático. Se construyó un conjunto de datos de enfermedades cutáneas inducidas por arsénico y otras enfermedades cutáneas, con más de 11 000 imágenes, y se compararon y evaluaron modelos basados en CNN y Transformer. El modelo Swin Transformer obtuvo el mayor rendimiento, con una precisión del 86 %. La interpretabilidad del modelo se mejoró mediante LIME y Grad-CAM. Su aplicabilidad práctica también se demostró mediante una herramienta de diagnóstico web. Este estudio demuestra el potencial del diagnóstico no invasivo, accesible y explicable de la arsenicosis mediante imágenes móviles.