Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rapport technique MedGemma

Created by
  • Haebom

Auteur

Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cian Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Rame , Morgane Rivière, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Édouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Leonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang

Contour

MedGemma est une collection de modèles de langage d'images médicales basés sur Gemma 3, 4B et 27B. Pour relever les défis du développement de l'IA dans le domaine de la santé, tels que la diversité des données médicales, la complexité des tâches et le respect de la confidentialité, nous présentons un modèle de base performant pour les tâches médicales nécessitant peu de données de réglage spécifiques. MedGemma démontre des capacités avancées de compréhension et de raisonnement médicaux pour les images et le texte, surpassant largement les modèles génératifs de taille similaire et se rapprochant des performances des modèles spécifiques aux tâches. Il améliore également les performances par rapport aux modèles existants sur les tâches hors distribution (2,6 à 10 % en questions-réponses médicales multimodales, 15,5 à 18,1 % en classification des résultats de la ligne thoracique X et 10,8 % en évaluation des agents), tout en conservant les capacités générales des modèles basés sur Gemma 3. Grâce à des ajustements précis, nous améliorons encore les performances dans les sous-domaines, obtenant des performances de classification des hernies pulmonaires et des patchs histopathologiques comparables aux méthodes de pointe existantes. Nous introduisons également MedSigLIP, un encodeur de vision optimisé pour un usage médical, qui optimise les capacités de compréhension visuelle de MedGemma et atteint des performances comparables, voire supérieures, à celles des encodeurs d'images médicales spécialisés. MedGemma constitue la base de puissantes capacités d'imagerie et de texte médicaux susceptibles d'accélérer considérablement la recherche médicale et le développement d'applications en aval.

Takeaways, Limitations

Takeaways:
Il peut accélérer le développement de l’IA médicale en fournissant un modèle de base puissant pour la compréhension de l’image médicale et du langage.
Il offre une polyvalence applicable à une variété de tâches médicales avec de petites quantités de données.
Il surpasse ou se rapproche des modèles de tâches spécifiques existants et montre également des améliorations de performances dans les tâches en dehors de la distribution.
Un réglage précis peut encore améliorer les performances dans des sous-domaines médicaux spécifiques.
MedSigLIP établit une nouvelle norme pour le codage des images médicales.
Limitations:
Le document manque de référence spécifique à Limitations ou à des limitations.
Une évaluation plus approfondie de la capacité de généralisation du modèle peut être nécessaire.
Une validation supplémentaire utilisant des ensembles de données médicales réelles à grande échelle est nécessaire.
Il est nécessaire d’engager une discussion approfondie sur les questions d’éthique médicale et de confidentialité.
👍