Cet article explore la quantification post-apprentissage (PTQ), une méthode de compression pratique permettant de résoudre les problèmes de taille qui surviennent lors du déploiement de modèles linguistiques à grande échelle (LLM). Nous constatons que les études précédentes n'ont pas permis de comprendre de manière exhaustive l'impact de la PTQ et les lois d'échelle des modèles quantifiés. Nous avons exploré expérimentalement les lois d'échelle hiérarchiques à travers diverses tâches. Nous décomposons les connaissances des LLM en compétences de mémorisation et d'exploitation, et développons un cadre quantitatif intégré englobant la taille du modèle, la largeur de bit effective, la taille de l'ensemble de calibration et la taille du groupe. Nos résultats révèlent que la mémorisation des connaissances est significativement plus sensible aux variations de largeur de bit effective, de taille de l'ensemble de calibration et de taille du modèle que l'exploitation des connaissances. Ces résultats fournissent une compréhension fine de l'impact de la PTQ et offrent des pistes pour développer des stratégies de quantification tenant compte des connaissances et préservant mieux les fonctions cognitives ciblées.