Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EquiTabPFN : un réseau ajusté a priori équivariant à permutation cible

Created by
  • Haebom

Auteur

Michael Arbel, David Salinas, Frank Hutter

Contour

Cet article met en évidence le problème suivant : les modèles de référence existants pour les données tabulaires (par exemple, TabPFN) exploitent l'apprentissage contextuel pour s'adapter à de nouvelles tâches, mais sont limités à un nombre fixe de dimensions cibles prédéfinies, ce qui nécessite des stratégies d'ensemble coûteuses. Cette limitation est due à l'absence d'équivariance cible, ce qui conduit à des prédictions différentes lorsque l'ordre des dimensions cibles est modifié. Dans cet article, nous concevons une architecture complète d'équivariance cible pour combler cet « écart d'équivariance ». Elle garantit l'invariance des permutations grâce à un encodeur d'équivariance, un décodeur et un mécanisme d'attention bidirectionnel. Des évaluations expérimentales sur des référentiels de classification standard montrent que ses performances sont égales, voire supérieures, aux méthodes existantes sur des ensembles de données comportant davantage de classes que celles observées lors du pré-apprentissage, avec une charge de calcul moindre.

Takeaways, Limitations

Takeaways:
Nous révélons les limites des modèles de données tabulaires existants qui manquent de transformabilité d’équivalence d’objectifs.
Améliorez la stabilité des prédictions et réduisez les frais de calcul grâce à une architecture de transformation équivalente à la cible.
Atteint des performances supérieures ou équivalentes aux méthodes existantes sur des ensembles de données avec des classes diverses.
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralité de l’architecture présentée et son applicabilité à d’autres types de données.
Une description détaillée du type et de la taille de l’ensemble de données de référence utilisé est nécessaire.
Manque d’évaluation des performances pour les ensembles de données extrêmement volumineux ou les tâches complexes.
👍