Cet article présente un nouveau modèle génératif, ByteGen, pour résoudre le problème complexe de la modélisation générative de la dynamique des carnets d'ordres haute fréquence (LOB). Les approches existantes souffrent de limitations liées à leur recours à des hypothèses probabilistes simplifiées ou, dans le cas des modèles d'apprentissage profond modernes comme Transformer, à des techniques de tokenisation qui affectent les propriétés numériques de haute précision des données. ByteGen surmonte ces limitations en traitant directement le flux d'octets brut des événements LOB. Pour représenter les messages du marché sans perte d'information, nous concevons un format binaire compressé de 32 octets et abordons le problème avec une tâche de prédiction autorégressive à l'octet suivant. En éliminant complètement l'ingénierie des caractéristiques et la tokenisation, nous apprenons la dynamique du marché à partir d'une représentation basique. En appliquant l'architecture H-Net, nous utilisons un mécanisme de segmentation dynamique pour découvrir la structure inhérente des messages du marché sans règles prédéfinies. En nous entraînant sur plus de 34 millions d'événements issus des contrats à terme Bitcoin du CME, nous reproduisons avec succès les principales caractéristiques des marchés financiers, notamment des distributions de prix réalistes, des rendements à queue lourde et le timing des événements en rafale.