Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Selección de demostración en tiempo lineal para el aprendizaje en contexto mediante estimación de gradiente

Created by
  • Haebom

Autor

Ziniu Zhang, Zhenshuo Zhang, Dongyue Li, Lu Wang, Jennifer Dy, Hongyang R. Zhang

Describir

Este artículo presenta un algoritmo para seleccionar ejemplos de demostración para un conjunto de consultas en aprendizaje contextual. Abordamos cómo seleccionar k ejemplos de un conjunto de n ejemplos para usarlos como condiciones para la inferencia posterior. A diferencia de los métodos existentes basados ​​en la similitud de incrustación de tokens, este artículo propone un enfoque novedoso que utiliza el gradiente de salidas en el espacio de incrustación de entrada. Estimamos las salidas del modelo mediante una aproximación de primer orden utilizando el gradiente y aplicamos esta estimación a múltiples subconjuntos seleccionados aleatoriamente. Calculamos una puntuación de influencia para cada demostración y seleccionamos los k ejemplos más relevantes. Dado que las salidas y los gradientes del modelo solo necesitan precalcularse una vez, el algoritmo opera en tiempo lineal con respecto al tamaño del modelo y del conjunto de entrenamiento. Experimentos exhaustivos en diversos modelos y conjuntos de datos demuestran su eficiencia. El procedimiento de estimación de gradiente aproxima la inferencia completa con menos del 1% de error en seis conjuntos de datos. Esto permite una selección de subconjuntos hasta 37,7 veces más rápida que los métodos existentes y produce una mejora promedio del 11% sobre los métodos de selección basados ​​en incrustación de entrada existentes.

Takeaways, Limitations

Takeaways:
Presentamos un ejemplo de demostración de un algoritmo de selección que es más eficiente y funciona mejor que los métodos basados ​​en la incrustación de entradas.
Proporciona una aproximación precisa a la inferencia completa a través de la estimación basada en gradientes.
Seleccione ejemplos de demostración de forma rápida y eficiente, incluso para modelos a gran escala.
Se puede utilizar en diversas aplicaciones, como la sintonización rápida y la inferencia de la cadena de pensamiento.
Limitations:
Debido a que la estimación basada en gradientes se basa en aproximaciones de primer orden, los errores pueden aumentar en modelos o conjuntos de datos complejos.
La eficiencia del algoritmo depende del cálculo previo de la salida del modelo y de los gradientes, lo que puede requerir importantes recursos computacionales.
Es posible que sea necesario ajustar los hiperparámetros para optimizar el modelo y el conjunto de datos específicos.
👍