Supernova es un modelo de transformador basado únicamente en decodificador con 650 millones de parámetros. Logra resultados comparables al rendimiento de los modelos a gran escala existentes, manteniendo al mismo tiempo la eficiencia computacional. Esto se debe al uso innovador de incrustaciones posicionales rotatorias (RoPE), atención de consultas agrupadas (GQA, relación de compresión 3:1), RMSNorm, la función de activación SwiGLU y un tokenizador BPE a nivel de byte de 120 000 palabras. Supernova alcanza el 90 % del rendimiento de un modelo de mil millones de parámetros con un 53 % menos de parámetros y 100 000 millones de tokens (10 veces menos que los modelos de la competencia), lo que demuestra que la eficiencia arquitectónica y la calidad del tokenizador son más importantes que el tamaño del modelo.