Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Réseaux neuronaux bayésiens précis

Created by
  • Haebom

Auteur

Carlos Stein Brito

Contour

Cet article analyse la sous-utilisation des réseaux de neurones bayésiens (BNN) en raison de l'incohérence de la distribution de probabilité postérieure gaussienne standard avec la géométrie du réseau, de l'instabilité du terme KL en grandes dimensions et du manque de fiabilité de la correction d'incertitude malgré la complexité accrue de la mise en œuvre. Nous réexaminons le problème du point de vue de la régularisation et de l'incertitude du modèle en utilisant la distribution de probabilité postérieure de von Mises-Fisher, qui ne dépend que de la direction du poids. Cela produit un seul scalaire interprétable par couche, le bruit régularisé effectif ($\sigma_{\mathrm{eff}}$), qui correspond à un simple bruit gaussien additif dans la passe avant et permet une correction KL compacte, fermée et dimensionnelle. En dérivant une approximation fermée exacte entre la concentration $\kappa$, la variance d'activation et $\sigma_{\mathrm{eff}}$, nous créons une unité variationnelle légère et implémentable, adaptée aux architectures régularisées modernes et améliorant l'étalonnage sans sacrifier la précision. La prise en compte de la dimensionnalité est cruciale pour une optimisation stable dans les dimensions élevées, et nous montrons que les BNN peuvent être fondés sur des principes, pratiques et précis en alignant les probabilités postérieures variationnelles avec la géométrie intrinsèque du réseau.

Takeaways, Limitations_

Takeaways:
Nous proposons la possibilité d'un apprentissage stable et efficace du réseau neuronal bayésien même dans des dimensions élevées en utilisant la distribution de probabilité postérieure de von Mises-Fisher pour la direction du poids.
Améliorez la compréhensibilité du modèle en représentant l'incertitude via une valeur scalaire interprétable appelée bruit ($\sigma_{\mathrm{eff}}$) après normalisation effective.
Fournit des unités variationnelles légères applicables aux architectures de réseaux neuronaux régularisés modernes.
Amélioration des performances de compensation et prévention de la dégradation de la précision
Limitations:
Des vérifications supplémentaires sont nécessaires pour déterminer si les hypothèses formulées à l’aide de la distribution de von Mises-Fisher sont applicables à tous les types d’architectures de réseaux neuronaux.
D’autres expériences sont nécessaires pour déterminer dans quelle mesure la méthode proposée se généralise à différents ensembles de données et tâches.
Une analyse plus approfondie de la précision des approximations sous forme fermée est nécessaire.
👍