Dans cet article, nous présentons Synergy, un modèle de langage qui connecte différents niveaux d'abstraction de bout en bout via un mécanisme de routage appris. Entraîné comme un modèle de langage au niveau octet, il se concentre sur les abstractions linguistiques de bas niveau et segmente automatiquement les octets pour produire moins de jetons de concept que le tokenizer BBPE (Byte-level Byte Pair Encoder) tout en conservant des performances similaires. En comparant avec Llama3, nous démontrons la supériorité de Synergy à taille de modèle et taille de jeu de données d'entraînement identiques. D'autres études montrent que les performances sont améliorées lorsque l'encodage positionnel est supprimé de la partie centrale du modèle (partie d'abstraction de haut niveau), suggérant l'émergence de concepts indépendants de la position. Ces résultats démontrent la faisabilité d'une architecture sans tokenizer et ouvrent la voie à des pipelines plus robustes et plus flexibles.