Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Repenser les changements de distribution : analyse empirique et modélisation inductive pour les données tabulaires

Created by
  • Haebom

Auteur

Tianyu Wang, Jiashuo Liu, Peng Cui, Hongseok Namkoong

Contour

Cet article souligne les limites du développement d'algorithmes robustes existants, qui reposent sur des hypothèses structurelles sans vérification empirique de changements distributionnels spécifiques, et propose une approche empiriquement fondée et axée sur les données. Nous construisons un banc d'essai empirique comprenant huit jeux de données tabulaires, 172 paires de distributions, 45 méthodes et 90 000 configurations de méthodes pour comparer et analyser les méthodologies de minimisation des risques empiriques (ERM) et d'optimisation robuste à la distribution (DRO). Notre analyse révèle que, contrairement aux changements X (covariables) généralement évoqués dans la littérature existante sur l'apprentissage automatique, les changements Y|X sont les plus courants et que les algorithmes robustes ne surpassent pas les méthodes conventionnelles. Une analyse plus approfondie de la méthodologie DRO révèle que les détails d'implémentation, tels que la classe de modèle et la sélection des hyperparamètres, ont un impact plus important sur les performances que les ensembles d'incertitudes ou les rayons. Enfin, nous démontrons à travers une étude de cas qu’une compréhension inductive et basée sur les données des changements de distribution peut fournir une nouvelle approche du développement d’algorithmes.

Takeaways, Limitations_

Takeaways:
Nous soulignons qu’une compréhension inductive et basée sur les données du changement distributionnel est cruciale pour le développement d’algorithmes.
Nous montrons expérimentalement que le décalage Y|X se produit plus fréquemment que le décalage X, qui est principalement traité dans les études précédentes.
Les performances de la méthodologie DRO sont davantage influencées par le choix de la classe de modèle et des hyperparamètres que par l’ensemble d’incertitude ou le rayon.
Cela suggère la nécessité d’une approche axée sur les données basée sur une validation empirique dans le développement d’algorithmes.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si les résultats peuvent être généralisés au type et aux caractéristiques de l’ensemble de données utilisé.
Une analyse plus approfondie des différents types de changement de distribution et des algorithmes est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer l’applicabilité pratique et l’efficacité de l’approche basée sur les données proposée.
👍