Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Convergence et généralisation de l'anti-régularisation pour les modèles paramétriques

Created by
  • Haebom

Auteur

Dongseok Kim, Wonjun Jeong, Gisung Oh

Contour

Cet article propose l'« anti-régularisation », une nouvelle technique qui améliore intentionnellement la puissance expressive des modèles dans les environnements à faibles volumes de données. L'anti-régularisation introduit un terme de récompense inversé dans la fonction de perte, améliorant ainsi la puissance expressive des modèles pour les petits échantillons et atténuant les interventions à mesure que la taille de l'échantillon augmente, selon un schéma de décroissance en loi de puissance. Nous formulons des conditions de sécurité spectrale et des contraintes de région de confiance, et concevons un mécanisme de sécurité léger combinant un opérateur de projection et un écrêtage de gradient pour garantir des interventions stables. L'analyse théorique s'étend aux régimes de lissage linéaire et de noyau tangent neuronal, fournissant des conseils pratiques pour le choix d'un exposant de décroissance par un compromis empirique entre risque et variance. Les résultats expérimentaux démontrent que l'anti-régularisation atténue le sous-ajustement en régression et en classification, tout en maintenant les performances de généralisation et en améliorant le calibrage. Des analyses plus approfondies confirment que le schéma de décroissance et le mécanisme de sécurité sont essentiels pour éviter le sur-ajustement et l'instabilité. De plus, nous proposons un schéma cible à degrés de liberté qui maintient une complexité par échantillon constante. La dénormalisation est une procédure simple et reproductible qui s'intègre parfaitement dans les pipelines de minimisation des risques empiriques standard, permettant un apprentissage robuste sous des contraintes de données et de ressources limitées en intervenant uniquement lorsque cela est nécessaire et en rejetant dans le cas contraire.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour atténuer efficacement le problème du sous-ajustement du modèle sur de petits ensembles de données.
Nous avons confirmé l’efficacité de l’amélioration des performances de généralisation et d’étalonnage dans les problèmes de régression et de classification.
Des procédures simples et reproductibles qui peuvent être facilement intégrées dans les pipelines d’apprentissage existants.
Un programme alternatif est proposé qui maintient une complexité constante par échantillon.
Limitations:
L'analyse théorique de la méthode proposée se limite aux régimes de lissage linéaire et de noyau tangent neuronal. L'analyse d'un éventail plus large de modèles est nécessaire.
Il manque des indications claires sur la définition des valeurs optimales pour l'indice d'amortissement et le programme cible de degrés de liberté. Une exploration expérimentale pourrait s'avérer nécessaire.
Les résultats expérimentaux peuvent être limités à un ensemble de données spécifique. Des expériences supplémentaires sur des ensembles de données diversifiés sont nécessaires.
👍