Estudio sobre la reducción del tamaño del modelo Llama3.3 70B, manteniendo su rendimiento para la implementación local en hardware de consumo, mediante el formato GGUF y k_quantization. El número de bits asignados a cada peso se reduce según su importancia durante la inferencia del modelo, y esta se determina mediante un breve documento de texto denominado "matriz de importancia", que representa casos de uso estándar. Dado que la matriz de importancia actual está escrita principalmente en inglés, no está claro si afectará el rendimiento en otros idiomas. Por lo tanto, cuantificamos Llama3.3 70B utilizando matrices de importancia escritas en inglés, noruego y malabar, y evaluamos el rendimiento en inglés y noruego con el conjunto de datos MixEval.