Une étude a été réalisée pour réduire la taille du modèle Llama3.3 70B tout en maintenant ses performances pour un déploiement local sur du matériel grand public, à l'aide du format GGUF et de la k_quantification. Le nombre de bits attribués à chaque pondération est réduit en fonction de son importance lors de l'inférence du modèle, et cette importance est déterminée par un petit document texte appelé « matrice d'importance » qui représente les cas d'utilisation standard. La matrice d'importance existante étant principalement rédigée en anglais, il est difficile de savoir si elle dégradera les performances dans d'autres langues. Par conséquent, nous quantifions Llama3.3 70B à l'aide de matrices d'importance rédigées en anglais, norvégien et malayalam, et évaluons les performances en anglais et en norvégien avec le jeu de données MixEval.