Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Edición eficiente de modelos de mezcla de expertos con expertos comprimidos
Created by
Haebom
Autor
Yifei He, Yang Liu, Chen Liang, Hany Hassan Awadalla
Describir
Este artículo propone el concepto de expertos comprimidos para el escalado eficiente de modelos de mezcla de expertos (MoE). Los modelos MoE existentes activan solo un subconjunto de expertos durante el entrenamiento y la inferencia, pero no todos los expertos activados contribuyen por igual al rendimiento. Este estudio propone un método para reducir el número de parámetros activos y los costos de inferencia mediante la sustitución de expertos insignificantes por módulos comprimidos y ligeros. Los resultados experimentales con los modelos Phi-MoE y OLMoE demuestran que los expertos comprimidos recuperan más del 90 % del rendimiento total del experto, a la vez que reducen los parámetros activos en más del 30 % y los costos de inferencia en más del 20 %. Esto permite una implementación eficiente de modelos MoE en entornos con recursos limitados y su escalado a modelos más grandes. El código se puede encontrar en https://github.com/yifei-he/Compressed-Experts .