Dans cet article, nous proposons un nouveau cadre de quantification post-apprentissage pour quantifier les pondérations et les fonctions d'activation des modèles de langage à grande échelle (LLM) à 1 bit. Les techniques de quantification existantes souffrent d'une dégradation des performances lorsque la précision de pondération et d'activation est inférieure à 4 bits. Dans cet article, nous résolvons ce problème en utilisant la configuration W(1+1)A(1*4). Les pondérations sont quantifiées à 1 bit à l'aide de techniques de groupement fin hessiennes et de quantification EM, et le bit supplémentaire est utilisé pour effectuer un groupement fin. La fonction d'activation décompose la fonction d'activation quantifiée INT4 en un format 4*INT1 et lisse simultanément le facteur d'échelle en fonction de l'erreur de quantification afin de réduire cette dernière. Les résultats expérimentaux montrent que la méthode proposée surpasse les benchmarks de quantification LLM de pointe (SOTA) pour diverses tâches et surmonte les limites des méthodes de quantification LLM existantes pour les modèles entièrement binarisés. Le code est disponible sur GitHub.