En este artículo, proponemos una red siamesa multiescala y bimodal, DMS-Net, para la clasificación de imágenes binoculares de fondo de ojo. DMS-Net extrae características semánticas profundas de imágenes pareadas de fondo de ojo mediante una estructura principal Siamese ResNet-152 con reparto de pesos. Para abordar problemas como la ambigüedad de los límites de las lesiones y la distribución patológica dispersa, introducimos un módulo multiescala sensible al contexto (MSCAM) que integra mecanismos de agrupación adaptativa y atención. Además, combinamos eficazmente el contexto global y las características locales de los bordes mejorando las interacciones intermodales mediante la recalibración espacio-semántica y la atención bidireccional a través del módulo de fusión de características bimodal (DMFF). Al evaluarse en el conjunto de datos ODIR-5K, DMS-Net alcanza un rendimiento de vanguardia con una precisión del 82,9 %, una recuperación del 84,5 % y un índice kappa de Cohen del 83,2 %, lo que demuestra una capacidad superior para detectar patologías simétricas y optimizar la toma de decisiones clínicas en enfermedades oftálmicas.