[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Supernova: Lograr más con menos en arquitecturas de transformadores

Created by
  • Haebom

Autor

Andrei-Valentin Tanase, Elena Pelícano

Describir

Supernova es un modelo de transformador basado únicamente en decodificador con 650 millones de parámetros. Logra resultados comparables al rendimiento de los modelos a gran escala existentes, manteniendo al mismo tiempo la eficiencia computacional. Esto se debe al uso innovador de incrustaciones posicionales rotatorias (RoPE), atención de consultas agrupadas (GQA, relación de compresión 3:1), RMSNorm, la función de activación SwiGLU y un tokenizador BPE a nivel de byte de 120 000 palabras. Supernova alcanza el 90 % del rendimiento de un modelo de mil millones de parámetros con un 53 % menos de parámetros y 100 000 millones de tokens (10 veces menos que los modelos de la competencia), lo que demuestra que la eficiencia arquitectónica y la calidad del tokenizador son más importantes que el tamaño del modelo.

Takeaways, Limitations

Takeaways:
Demostramos que es posible aproximarse al rendimiento del modelo a gran escala mejorando la arquitectura y el tokenizador, en lugar de confiar únicamente en aumentar el tamaño del modelo.
Presentamos una nueva arquitectura y técnica de diseño de tokenizadores que mejora la eficiencia computacional.
Presenta un método para lograr un alto rendimiento con pocos datos.
Un desafío al paradigma de escalamiento tradicional y simple.
Limitations:
Supernova puede estar optimizado para tareas específicas y no puede garantizar el mismo rendimiento en otras tareas.
Se necesita más investigación para determinar si la arquitectura y el tokenizador propuestos son aplicables a todas las situaciones.
El resultado de un rendimiento del 90% en comparación con un modelo de mil millones de parámetros es relativo y no una cifra de rendimiento absoluta.
👍