Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Redes neuronales bayesianas precisas

Created by
  • Haebom

Autor

Carlos Stein Brito

Describir

Este artículo analiza la infrautilización de las redes neuronales bayesianas (BNN) debido a la inconsistencia de la distribución de probabilidad posterior gaussiana estándar con la geometría de la red, la inestabilidad del término KL en dimensiones altas y la corrección de la incertidumbre poco fiable a pesar de la mayor complejidad de implementación. Reconsideramos el problema desde una perspectiva de regularización y modelamos la incertidumbre utilizando la distribución de probabilidad posterior de von Mises-Fisher, que depende únicamente de la dirección del peso. Esto produce un único escalar interpretable por capa, el ruido regularizado efectivo ($\sigma_{\mathrm{eff}}$), que corresponde al ruido gaussiano aditivo simple en el paso directo y permite una corrección KL compacta, de forma cerrada y con conocimiento de las dimensiones. Al derivar una aproximación exacta de forma cerrada entre la concentración $\kappa$, la varianza de activación y $\sigma_{\mathrm{eff}}$, creamos una unidad variacional ligera e implementable que se adapta a las arquitecturas regularizadas modernas y mejora la calibración sin sacrificar la precisión. El conocimiento de la dimensionalidad es crucial para una optimización estable en altas dimensiones, y demostramos que las BNN pueden ser prácticas, precisas y basadas en principios al alinear las probabilidades posteriores variacionales con la geometría intrínseca de la red.

Takeaways, Limitations

Takeaways:
Proponemos la posibilidad de un aprendizaje estable y eficiente de redes neuronales bayesianas incluso en dimensiones altas utilizando la distribución de probabilidad posterior de von Mises-Fisher para la dirección del peso.
Mejore la comprensibilidad del modelo al representar la incertidumbre a través de un valor escalar interpretable llamado ruido ($\sigma_{\mathrm{eff}}$) después de una normalización efectiva.
Proporciona unidades variacionales ligeras aplicables a arquitecturas de redes neuronales regularizadas modernas.
Se mejoró el rendimiento de compensación y se evitó la degradación de la precisión
Limitations:
Se necesita una verificación adicional para determinar si las suposiciones realizadas utilizando la distribución de von Mises-Fisher son aplicables a todos los tipos de arquitecturas de redes neuronales.
Se necesitan más experimentos para determinar qué tan bien se generaliza el método propuesto en diferentes conjuntos de datos y tareas.
Se necesita un análisis más profundo de la precisión de las aproximaciones de forma cerrada.
👍