Contrairement aux recherches précédentes sur la compression rapide pour les modèles de langage à grande échelle (LLM), qui se concentrent principalement sur des méthodes sacrifiant l'information sémantique, cet article présente une technique de compression sans perte, indépendante de la tâche, similaire à LZ77. Sur deux tâches d'évaluation, nous démontrons que la technique proposée réduit la longueur des séquences de jetons d'entrée de respectivement 27 % et 18 %. De plus, l'utilisation d'un LLM basé sur un transformateur réduit les calculs d'encodage de respectivement 47 % et 33 %, en raison de la nature quadratique de l'attention. Nous soulignons que les transformations de séquences de jetons sont facilement réversibles, sans perte d'information sémantique. Nous évaluons la méthode proposée sur deux tâches nécessitant une préservation précise des informations sémantiques et syntaxiques, et démontrons que les méthodes de compression avec perte existantes sont moins performantes dans ces contextes. La technique sans perte présente une faible différence de performance par rapport aux entrées non compressées, et nous prévoyons que cette différence de performance disparaîtra entièrement avec des modèles plus grands et des budgets de calcul accrus.