Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ByteGen: Un modelo generativo sin tokenizador para eventos del libro de órdenes en el espacio de bytes

Created by
  • Haebom

Autor

Yang Li, Zhi Chen

Describir

Este artículo presenta un novedoso modelo generativo, ByteGen, para abordar el complejo problema del modelado generativo de la dinámica de libros de órdenes (LOB) de alta frecuencia. Los enfoques existentes presentan limitaciones debido a su dependencia de supuestos probabilísticos simplificados o, en el caso de modelos modernos de aprendizaje profundo como Transformer, técnicas de tokenización que afectan las propiedades numéricas de alta precisión de los datos. ByteGen supera estas limitaciones procesando directamente el flujo de bytes sin procesar de los eventos LOB. Para representar los mensajes de mercado sin pérdida de información, diseñamos un formato binario comprimido de 32 bytes y abordamos el problema con una tarea autorregresiva de predicción del siguiente byte. Al eliminar por completo la ingeniería de características y la tokenización, aprendemos la dinámica del mercado a partir de una representación básica. Aplicando la arquitectura H-Net, utilizamos un mecanismo de fragmentación dinámica para descubrir la estructura inherente de los mensajes de mercado sin reglas predefinidas. Mediante el entrenamiento con más de 34 millones de eventos de futuros de Bitcoin de CME, reproducimos con éxito características clave de los mercados financieros, incluyendo distribuciones de precios realistas, retornos de cola pesada y sincronización de eventos de ráfaga.

Takeaways, Limitations

Takeaways:
Presentamos el primer marco de nivel de bytes de extremo a extremo para el modelado LOB.
Proponer un método eficiente de representación de datos comprimidos.
Logre un desempeño competitivo en métricas de calidad de mercado estándar sin sesgo de tokenización.
Demostramos que aprender directamente en el espacio de bytes es un paradigma prometedor y flexible para modelar sistemas financieros complejos.
Limitations:
Actualmente, solo se presentan los resultados de los datos de futuros de Bitcoin de CME, y se necesita más investigación para determinar la generalización a otros activos o mercados.
La falta de una descripción detallada del mecanismo de fragmentación dinámica de la arquitectura H-Net hace necesaria la verificación de la reproducibilidad.
Falta de análisis de la escalabilidad del modelo y del coste computacional.
👍