Este artículo propone la Descomposición de Expertos (DoE), un novedoso marco para reducir el coste de inferencia de los modelos de lenguaje a gran escala (LLM). DoE define como "expertos" a las neuronas que desempeñan un papel crucial en una tarea específica, identificándolos y activándolos dinámicamente para cada tarea con el fin de acelerar la inferencia. Al recibir una solicitud del usuario, DoE busca expertos para la tarea, realiza la inferencia utilizando únicamente a esos expertos y vuelve al modelo original una vez completada la tarea. Este proceso de cuatro pasos demuestra que DoE logra una aceleración de inferencia de hasta 1,73 veces y una reducción de parámetros del 65 %, manteniendo la precisión. Validamos la eficacia de DoE y la importancia de sus componentes mediante comparaciones con diversos métodos de identificación de expertos y estudios de ablación. También analizamos el impacto del tamaño del lote, el número de tokens y el tipo de capa en la aceleración de la inferencia. DoE es un marco práctico y altamente escalable, aplicable a arquitecturas basadas en Transformers.