Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CauKer : les modèles de base de séries chronologiques de classification peuvent être pré-entraînés uniquement sur des données synthétiques

Created by
  • Haebom

Auteur

Shifeng Xie, Vasilii Feofanov, Marius Alonso, Ambroise Odonnat, Jianfeng Zhang, Themis Palpanas, Ievgen Redko

Contour

Cet article propose CauKer, un nouvel algorithme permettant un pré-apprentissage efficace des modèles basés sur des séries chronologiques (TSFM) sans nécessiter de pré-apprentissage coûteux en calcul, à partir de données de séries chronologiques réelles à grande échelle. CauKer combine la synthèse du noyau du processus gaussien (GP) avec des modèles causaux structurels (SCM) pour générer des données de séries chronologiques synthétiques diverses et causalement cohérentes, présentant des tendances, une saisonnalité et des interactions non linéaires réalistes. Il génère des données pour un pré-apprentissage efficace des TSFM de classification de pointe, avec diverses architectures et méthodes de pré-apprentissage. Nous démontrons expérimentalement que, contrairement aux ensembles de données réels, il présente une loi d'échelle claire concernant la taille de l'ensemble de données (10 000 à 10 millions d'échantillons) et la capacité du modèle (1 million à 783 millions de paramètres).

Takeaways, Limitations_

Takeaways:
Nous présentons une méthode de pré-formation TSFM efficace qui réduit la dépendance aux grands ensembles de données du monde réel et réduit les coûts de calcul.
Les ensembles de données synthétiques générés via CauKer présentent des lois d'échelle régulières, fournissant des informations utiles pour le développement de modèles et l'analyse des performances.
Nous présentons une méthode générale de génération de données de pré-formation applicable aux TSFM avec diverses architectures et méthodes de pré-formation.
Limitations:
Les données synthétiques générées par CauKer peuvent ne pas refléter parfaitement toutes les complexités des données réelles.
Les lois d’échelle présentées peuvent être limitées à des environnements expérimentaux spécifiques et peuvent apparaître différemment dans d’autres conditions.
Une évaluation qualitative plus approfondie des données synthétiques et une analyse comparative avec des données réelles sont nécessaires.
👍