Bài báo này trình bày VisionUnite, một mô hình mới dựa trên ngôn ngữ hình ảnh được bổ sung kiến thức lâm sàng nhằm cải thiện chẩn đoán nhãn khoa ở những khu vực khó tiếp cận dịch vụ chăm sóc sức khỏe. VisionUnite được đào tạo trước trên 1,24 triệu cặp hình ảnh-văn bản và được tinh chỉnh thêm bằng bộ dữ liệu MMFundus, chứa hơn 290.000 cặp hình ảnh-văn bản đáy mắt chất lượng cao và hơn 890.000 cuộc trò chuyện mô phỏng giữa bác sĩ và bệnh nhân. Kết quả thử nghiệm cho thấy VisionUnite vượt trội hơn các mô hình sinh sản hiện có như GPT-4V và Gemini Pro, đồng thời đạt hiệu suất chẩn đoán tương đương với một bác sĩ nhãn khoa mới vào nghề. Hiệu suất vượt trội của VisionUnite trong nhiều tình huống lâm sàng khác nhau (ví dụ: chẩn đoán đa bệnh mở, tường thuật lâm sàng và tương tác với bệnh nhân) cho thấy tiềm năng của VisionUnite như một công cụ sàng lọc bệnh nhãn khoa sớm và hỗ trợ đào tạo bác sĩ nhãn khoa. Tóm lại, VisionUnite đại diện cho một bước tiến đáng kể trong nhãn khoa với những tác động rộng rãi đến chẩn đoán, giáo dục y khoa và hiểu biết về cơ chế bệnh. Mã nguồn có sẵn trên GitHub.