[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Paisaje de complejidad de pérdidas y funciones de estructura del modelo

Created by
  • Haebom

Autor

Aleksandr Kolpakov

Describir

Desarrollamos un marco para la dualidad de la función estructural de Kolmogorov h x (α) para habilitar proxies de complejidad computacionalmente factibles. Establecemos una analogía matemática entre las construcciones de teoría de la información y la mecánica estadística, e introducimos funciones de partición apropiadas y funciones de energía libre. Probamos explícitamente la dualidad de Legendre-Fenchel entre funciones estructurales y energías libres, mostramos un balance detallado de kernels de Metropolis e interpretamos la probabilidad de aceptación en términos de amplitudes de dispersión de teoría de la información. Se muestra que la varianza, como la susceptibilidad de la complejidad del modelo, alcanza su máximo precisamente en el equilibrio entre pérdida y complejidad, que se interpreta como una transición de fase. Experimentos prácticos con modelos de regresión lineal y basados en árboles verifican estas predicciones teóricas, y mostramos explícitamente la interacción entre la complejidad del modelo, la generalización y los umbrales de sobreajuste.

Takeaways, Limitations

Takeaways: Demostramos que el marco de dualidad de las funciones de estructura de Kolmogorov puede utilizarse para analizar y cuantificar la relación entre la complejidad del modelo, el rendimiento de generalización y el sobreajuste desde las perspectivas de la teoría de la información y la mecánica estadística. Presentamos una perspectiva novedosa que interpreta el equilibrio entre pérdida y complejidad como una transición de fase y aporta rigor teórico al conectar el balance detallado de los núcleos de Metropolis con las amplitudes de dispersión de la teoría de la información. Verificamos la validez de las predicciones teóricas mediante experimentos.
Limitations: El presente estudio se limita a modelos de regresión lineal y basada en árboles, y su generalización a otros tipos de modelos requiere mayor investigación. Se carece de análisis sobre la influencia de las características del conjunto de datos utilizado para la validación experimental en los resultados. Se requiere una validación experimental con conjuntos de datos y modelos más diversos.
👍