Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ByteGen : un modèle génératif sans tokeniseur pour les événements du carnet d'ordres dans l'espace octet

Created by
  • Haebom

Auteur

Yang Li, Zhi Chen

Contour

Cet article présente un nouveau modèle génératif, ByteGen, pour résoudre le problème complexe de la modélisation générative de la dynamique des carnets d'ordres haute fréquence (LOB). Les approches existantes souffrent de limitations liées à leur recours à des hypothèses probabilistes simplifiées ou, dans le cas des modèles d'apprentissage profond modernes comme Transformer, à des techniques de tokenisation qui affectent les propriétés numériques de haute précision des données. ByteGen surmonte ces limitations en traitant directement le flux d'octets brut des événements LOB. Pour représenter les messages du marché sans perte d'information, nous concevons un format binaire compressé de 32 octets et abordons le problème avec une tâche de prédiction autorégressive à l'octet suivant. En éliminant complètement l'ingénierie des caractéristiques et la tokenisation, nous apprenons la dynamique du marché à partir d'une représentation basique. En appliquant l'architecture H-Net, nous utilisons un mécanisme de segmentation dynamique pour découvrir la structure inhérente des messages du marché sans règles prédéfinies. En nous entraînant sur plus de 34 millions d'événements issus des contrats à terme Bitcoin du CME, nous reproduisons avec succès les principales caractéristiques des marchés financiers, notamment des distributions de prix réalistes, des rendements à queue lourde et le timing des événements en rafale.

Takeaways, Limitations

Takeaways:
Présentation du premier framework de bout en bout au niveau des octets pour la modélisation LOB.
Proposer une méthode efficace de représentation des données compressées.
Obtenez des performances compétitives sur des indicateurs de qualité de marché standard sans biais de tokenisation.
Nous démontrons que l’apprentissage direct dans l’espace octet est un paradigme prometteur et flexible pour la modélisation de systèmes financiers complexes.
Limitations:
Actuellement, seuls les résultats des données sur les contrats à terme Bitcoin du CME sont présentés, et des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d'autres actifs ou marchés.
L’absence d’une description détaillée du mécanisme de fragmentation dynamique de l’architecture H-Net nécessite une vérification de la reproductibilité.
Manque d’analyse de l’évolutivité du modèle et du coût de calcul.
👍