Bài báo này đề xuất một mô hình lai có thể diễn giải được cho phân tích hình ảnh y tế, kết hợp khả năng trích xuất đặc trưng cục bộ của CNN với khả năng nắm bắt phụ thuộc toàn cục của ViT. Để khắc phục những thách thức về khả năng diễn giải của các mô hình lai hiện có, chúng tôi đã phát triển một kiến trúc CNN-Transformer tích chập hoàn toàn, xem xét khả năng diễn giải ngay từ giai đoạn thiết kế và áp dụng vào việc phát hiện bệnh võng mạc. Mô hình được đề xuất vượt trội hơn các mô hình hộp đen và mô hình diễn giải được hiện có về hiệu suất dự đoán và tạo ra các bản đồ bằng chứng thưa thớt theo lớp chỉ trong một lần chạy. Mã nguồn có sẵn trên GitHub.