Pour résoudre le problème des modèles de langage à grande échelle (LLM) souffrant d'une forte dégradation des performances en quantification ultra-bas débit (< 2 bits), cet article propose PTQ1.61, une nouvelle méthode de quantification post-apprentissage (PTQ) ultra-bas débit qui permet une quantification pondérée à 1,61 bit. Alors que les méthodes existantes utilisent plus d'un bit supplémentaire par poids, PTQ1.61 introduit un masque structuré unidimensionnel basé sur des activations d'entrée. Ce masque utilise seulement un bit supplémentaire négligeable de 0,0002 bit, alloue 4 bits aux canaux de poids importants et effectue la binarisation des canaux non importants via un cadre d'optimisation du facteur d'échelle par bloc. De plus, nous présentons un nouveau paradigme de prétraitement de quantification qui atténue les difficultés de la PTQ spécifique aux canaux ultra-bas débit en transformant la distribution des poids d'un modèle pré-entraîné avant la quantification. Les résultats expérimentaux démontrent que PTQ1.61 atteint des performances de pointe en matière de quantification à très faible débit binaire.