Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Habilitación de asistentes médicos de IA en dispositivos mediante adaptación de saliencia basada en entradas

Created by
  • Haebom

Autor

Uttej Kallakurik, Edward Humes, Rithvik Jonna, Xiaomin Lin, Tinoosh Mohsenin

Describir

Este artículo presenta un novedoso sistema de asistencia médica para implementar modelos lingüísticos a gran escala (LLM) en entornos con recursos limitados, como la atención médica en tiempo real. Optimizado mediante un marco de compresión de propósito general, el sistema adapta los LLM a dominios específicos. Al medir la importancia de las neuronas en datos específicos del dominio, elimina de forma agresiva las neuronas irrelevantes, reduciendo el tamaño del modelo y manteniendo el rendimiento. Posteriormente, se aplica una cuantificación posterior al entrenamiento para reducir aún más el uso de memoria, y los modelos comprimidos se evalúan en parámetros de referencia para la atención médica, como MedMCQA, MedQA y PubMedQA. Además, implementamos un modelo Gemma comprimido al 50 % y un modelo LLaMA3 comprimido al 67 % en un Jetson Orin Nano y una Raspberry Pi 5, logrando una inferencia en tiempo real y energéticamente eficiente bajo restricciones de hardware.

Takeaways, Limitations

Takeaways:
Presentando la posibilidad de implementar un sistema de asistencia médica en tiempo real utilizando LLM incluso en entornos con recursos limitados.
Proponer una técnica efectiva de compresión de modelos basada en la medición de la importancia de las neuronas.
Presentamos un estudio de caso exitoso de inferencia en tiempo real en hardware real (Jetson Orin Nano, Raspberry Pi 5) utilizando un modelo comprimido.
Presentamos un plan de distribución de LLM médico energéticamente eficiente.
Limitations:
Se necesitan más investigaciones para determinar la generalización del marco de compresión propuesto.
Se requiere validación del rendimiento en varios conjuntos de datos médicos y entornos clínicos.
Se necesita un análisis más detallado de la degradación del rendimiento que puede ocurrir durante el proceso de compresión.
Problemas de escalabilidad con otras plataformas de hardware debido a optimizaciones para hardware específico.
👍