Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Replanteando los cambios en la distribución: análisis empírico y modelado inductivo para datos tabulares

Created by
  • Haebom

Autor

Tianyu Wang, Jiashuo Liu, Peng Cui, Hongseok Namkoong

Describir

Este documento señala las limitaciones del desarrollo de algoritmos robustos existentes, que se basan en supuestos estructurales sin verificación empírica de cambios distribucionales específicos, y propone un enfoque basado en datos y con base empírica. Construimos un banco de pruebas empírico que comprende ocho conjuntos de datos tabulares, 172 pares de distribución, 45 métodos y 90,000 configuraciones de métodos para comparar y analizar las metodologías de Minimización de Riesgo Empírico (ERM) y Optimización Robusta Distribucional (DRO). Nuestro análisis revela que, a diferencia de los cambios X (covariables) típicamente discutidos en la literatura de ML existente, los cambios Y|X son los más comunes, y que los algoritmos robustos no superan a los métodos convencionales. Un análisis más profundo de la metodología DRO revela que los detalles de implementación, como la clase de modelo y la selección de hiperparámetros, tienen un mayor impacto en el rendimiento que los conjuntos de incertidumbre o los radios. Finalmente, demostramos a través de un estudio de caso que una comprensión inductiva y basada en datos de los cambios distribucionales puede proporcionar un enfoque novedoso para el desarrollo de algoritmos.

Takeaways, Limitations

Takeaways:
Destacamos que una comprensión inductiva y basada en datos del cambio distribucional es crucial para el desarrollo de algoritmos.
Demostramos experimentalmente que el desplazamiento Y|X-ocurre con mayor frecuencia que el desplazamiento X-, lo cual se aborda principalmente en estudios anteriores.
El rendimiento de la metodología DRO está más influenciado por la elección de la clase de modelo y los hiperparámetros que por el conjunto de incertidumbre o el radio.
Sugiere la necesidad de un enfoque basado en datos y basado en la validación empírica en el desarrollo de algoritmos.
Limitations:
Se necesitan más investigaciones para determinar si los resultados pueden generalizarse al tipo y las características del conjunto de datos utilizado.
Se necesita más análisis de diversos tipos y algoritmos de cambio de distribución.
Se necesitan más investigaciones para determinar la aplicabilidad práctica y la eficacia del enfoque basado en datos propuesto.
👍