Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Activation des assistants médicaux IA sur appareil via l'adaptation de la saillance pilotée par les entrées

Created by
  • Haebom

Auteur

Uttej Kallakurik, Edward Humes, Rithvik Jonna, Xiaomin Lin, Tinoosh Mohsenin

Contour

Cet article présente un nouveau système d'assistance médicale permettant de déployer des modèles de langage à grande échelle (LLM) dans des environnements aux ressources limitées, comme les soins de santé en temps réel. Optimisé grâce à un framework de compression polyvalent, le système adapte les LLM à des domaines spécifiques. En mesurant l'importance des neurones sur des données spécifiques à un domaine, il supprime de manière ciblée les neurones non pertinents, réduisant ainsi la taille du modèle tout en maintenant les performances. Une quantification post-apprentissage est ensuite appliquée pour réduire davantage l'utilisation de la mémoire, et les modèles compressés sont évalués sur des benchmarks de santé tels que MedMCQA, MedQA et PubMedQA. De plus, nous déployons un modèle Gemma compressé à 50 % et un modèle LLaMA3 compressé à 67 % sur un Jetson Orin Nano et un Raspberry Pi 5, permettant une inférence en temps réel et économe en énergie sous contraintes matérielles.

Takeaways, Limitations

Takeaways:
Présentation de la possibilité de mettre en œuvre un système d'assistance médicale en temps réel utilisant LLM même dans des environnements à ressources limitées.
Proposer une technique efficace de compression de modèle basée sur la mesure de l'importance des neurones.
Nous présentons une étude de cas réussie d'inférence en temps réel sur du matériel réel (Jetson Orin Nano, Raspberry Pi 5) à l'aide d'un modèle compressé.
Présentation d'un plan de distribution LLM médical économe en énergie.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre de compression proposé.
La validation des performances est requise dans divers ensembles de données médicales et environnements cliniques.
Une analyse plus détaillée de la dégradation des performances qui peut survenir pendant le processus de compression est nécessaire.
Problèmes d'évolutivité vers d'autres plates-formes matérielles en raison d'optimisations pour du matériel spécifique.
👍