Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La cuantificación de los LLM no disminuye desproporcionadamente el rendimiento multilingüe

Created by
  • Haebom

Autor

Karl Audun Borgersen, Morten Goodwin

Describir

Estudio sobre la reducción del tamaño del modelo Llama3.3 70B, manteniendo su rendimiento para la implementación local en hardware de consumo, mediante el formato GGUF y k_quantization. El número de bits asignados a cada peso se reduce según su importancia durante la inferencia del modelo, y esta se determina mediante un breve documento de texto denominado "matriz de importancia", que representa casos de uso estándar. Dado que la matriz de importancia actual está escrita principalmente en inglés, no está claro si afectará el rendimiento en otros idiomas. Por lo tanto, cuantificamos Llama3.3 70B utilizando matrices de importancia escritas en inglés, noruego y malabar, y evaluamos el rendimiento en inglés y noruego con el conjunto de datos MixEval.

Takeaways, Limitations

Takeaways: Sugiere que los métodos de cuantificación actuales no perjudican desproporcionadamente el rendimiento multilingüe. Demuestra que el uso de matrices de importancia de diferentes idiomas no reduce significativamente el rendimiento.
Limitations: No se obtuvieron resultados estadísticamente significativos. Se requiere más investigación con más idiomas y un conjunto de datos más amplio. El número de idiomas utilizados en el experimento es limitado.
👍