Trong bài báo này, chúng tôi đề xuất một mạng lưới Siamese đa thang đo kép, DMS-Net, để phân loại ảnh đáy mắt hai mắt. DMS-Net trích xuất các đặc điểm ngữ nghĩa sâu từ ảnh đáy mắt ghép đôi bằng cách sử dụng xương sống Siamese ResNet-152 chia sẻ trọng số. Để giải quyết các vấn đề như sự mơ hồ ranh giới tổn thương và phân bố bệnh lý rải rác, chúng tôi giới thiệu một mô-đun nhận biết ngữ cảnh đa thang đo (MSCAM) tích hợp các cơ chế tập hợp thích ứng và chú ý. Ngoài ra, chúng tôi kết hợp hiệu quả các đặc điểm ngữ cảnh toàn cục và cạnh cục bộ bằng cách tăng cường tương tác xuyên mô-đun bằng cách sử dụng hiệu chuẩn lại ngữ nghĩa không gian và chú ý hai chiều thông qua mô-đun hợp nhất đặc điểm kép (DMFF). Khi được đánh giá trên tập dữ liệu ODIR-5K, DMS-Net đạt hiệu suất tiên tiến với độ chính xác 82,9%, khả năng thu hồi 84,5% và hệ số Cohen's kappa là 83,2%, thể hiện khả năng vượt trội trong việc phát hiện các bệnh lý đối xứng và thúc đẩy quá trình ra quyết định lâm sàng cho các bệnh về mắt.