Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

GPT-OSS-20B: Un análisis integral centrado en la implementación del modelo de mezcla de expertos de peso abierto de OpenAI

Created by
  • Haebom

Autor

Deepak Kumar, Divakar Yadav, Yash Patel

Describir

Este artículo presenta los resultados de un análisis comparativo del modelo GPT-OSS-20B basado en la Mezcla de Expertos (MoE) con modelos densos como Qwen3-32B e Yi-34B en un entorno de una sola GPU (H100, bf16). En un contexto de 2048 tokens y condiciones de decodificación de 64 tokens, GPT-OSS-20B mostró mayor rendimiento de decodificación y eficiencia energética por token que Qwen3-32B e Yi-34B. En particular, redujo significativamente el uso máximo de VRAM y el consumo de energía por cada 1000 tokens generados. Sin embargo, el tiempo hasta la generación del primer token (TTFT) fue mayor debido a la sobrecarga de enrutamiento de MoE. A pesar de que solo se activó el 17,3 % del total de parámetros (3610 millones frente a 20 900 millones), GPT-OSS-20B logró un rendimiento de decodificación aproximadamente un 31,8 % mayor y un consumo de energía un 25,8 % menor que Qwen3-32B, con un uso máximo de VRAM un 31,7 % menor. Considerando la efectividad por parámetro activado (APE), GPT-OSS-20B mostró una eficiencia significativamente mayor, lo que destaca las ventajas de implementación de MoE. Este estudio se centró en la implementación más que en la evaluación de la precisión, y el código y los resultados se publican para su reproducibilidad y extensión.

Takeaways, Limitations

Takeaways:
Demostramos que el modelo GPT-OSS-20B basado en MoE proporciona un mayor rendimiento de decodificación y eficiencia energética en un entorno de una sola GPU en comparación con el modelo denso.
A pesar del bajo porcentaje de parámetros activos, GPT-OSS-20B supera a los modelos densos, lo que demuestra la eficacia de MoE.
Esto sugiere que es posible implementar un modelo de lenguaje eficiente a gran escala incluso en entornos con recursos limitados.
Garantizar el seguimiento de la investigación y la reproducibilidad a través de código abierto y resultados.
Limitations:
Se excluye la evaluación de la precisión, lo que dificulta la evaluación del rendimiento general del modelo.
Existe un problema en el cual el tiempo de generación del primer token aumenta debido a la sobrecarga de enrutamiento de MoE.
Dado que esto se evaluó en un entorno de GPU única, no sabemos cómo funcionaría al escalarlo a un entorno de múltiples GPU.
👍