Cet article présente VisionUnite, un nouveau modèle basé sur le langage visuel et enrichi de connaissances cliniques pour améliorer le diagnostic ophtalmologique dans les zones à faible accès aux soins. VisionUnite est pré-entraîné sur 1,24 million de paires image-texte et affiné grâce au jeu de données MMFundus, qui contient plus de 290 000 paires image-texte de fond d'œil de haute qualité et plus de 890 000 simulations de conversations médecin-patient. Les résultats expérimentaux montrent que VisionUnite surpasse les modèles génératifs existants tels que GPT-4V et Gemini Pro, et atteint des performances diagnostiques comparables à celles d'un ophtalmologiste débutant. Ses performances supérieures dans divers scénarios cliniques (par exemple, diagnostic multipathologique ouvert, récits cliniques et interactions avec les patients) suggèrent son potentiel comme outil de dépistage précoce des maladies ophtalmologiques et comme outil de formation des ophtalmologistes. En conclusion, VisionUnite représente une avancée significative en ophtalmologie, avec de vastes implications pour le diagnostic, la formation médicale et la compréhension des mécanismes pathologiques. Le code source est disponible sur GitHub.