Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
En este artículo, presentamos InfoMax, un novedoso método de poda de datos que maximiza el contenido de información y minimiza la redundancia. InfoMax mide el contenido de información de muestras individuales utilizando sus puntuaciones de importancia y cuantifica la redundancia con base en la similitud entre muestras. El problema de selección del conjunto central se formula como un problema de programación cuadrática discreta (DQP), que maximiza la suma de las contribuciones de las muestras individuales menos la redundancia introducida por muestras similares. Mediante un solucionador eficiente basado en gradientes, una técnica de esparcimiento para la matriz de similitud y una estrategia de partición de conjuntos de datos, garantizamos la escalabilidad incluso a conjuntos de datos con millones de muestras. Demostramos experimentalmente el rendimiento superior de InfoMax en diversas tareas de poda de datos, incluyendo la clasificación de imágenes, el preentrenamiento de visión-lenguaje y el ajuste de instrucciones de modelos de lenguaje a gran escala. El código está disponible en https://github.com/hrtan/InfoMax .
Se presenta InfoMax, un nuevo método de poda de datos (selección de coreset) basado en la cantidad de información.
◦
Desarrollo de algoritmos escalables que puedan aplicarse eficientemente a conjuntos de datos de gran escala.
◦
Se ha verificado un excelente desempeño en varios campos, tales como clasificación de imágenes, pre-entrenamiento de visión-lenguaje y ajuste fino de modelos de lenguaje a gran escala.
◦
La reproducibilidad está garantizada mediante código abierto.
•
Limitations:
◦
Se necesitan más análisis sobre el rendimiento y la eficiencia de los solucionadores basados en gradientes para resolver problemas DQP.
◦
Se necesita una validación adicional del rendimiento de generalización en diversos conjuntos de datos y modelos.
◦
Hay margen de mejora en las puntuaciones de importancia de la muestra y en las medidas de similitud.