Este artículo presenta los resultados de un análisis comparativo del modelo GPT-OSS-20B basado en la Mezcla de Expertos (MoE) con modelos densos como Qwen3-32B e Yi-34B en un entorno de una sola GPU (H100, bf16). En un contexto de 2048 tokens y condiciones de decodificación de 64 tokens, GPT-OSS-20B mostró mayor rendimiento de decodificación y eficiencia energética por token que Qwen3-32B e Yi-34B. En particular, redujo significativamente el uso máximo de VRAM y el consumo de energía por cada 1000 tokens generados. Sin embargo, el tiempo hasta la generación del primer token (TTFT) fue mayor debido a la sobrecarga de enrutamiento de MoE. A pesar de que solo se activó el 17,3 % del total de parámetros (3610 millones frente a 20 900 millones), GPT-OSS-20B logró un rendimiento de decodificación aproximadamente un 31,8 % mayor y un consumo de energía un 25,8 % menor que Qwen3-32B, con un uso máximo de VRAM un 31,7 % menor. Considerando la efectividad por parámetro activado (APE), GPT-OSS-20B mostró una eficiencia significativamente mayor, lo que destaca las ventajas de implementación de MoE. Este estudio se centró en la implementación más que en la evaluación de la precisión, y el código y los resultados se publican para su reproducibilidad y extensión.