Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Activaciones delta: una representación para modelos de lenguaje grandes y ajustados
Created by
Haebom
Autor
Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim
Describir
Este artículo destaca el surgimiento de potentes LLM de código abierto, que han generado con éxito una vasta colección de modelos de lenguaje a gran escala (LLM) post-entrenados y adaptados a diversas tareas y dominios. Sin embargo, la inconsistencia de metadatos y los repositorios no estructurados dificultan la exploración y comprensión de estos modelos. Proponemos Activaciones Delta, un método para representar modelos ajustados como incrustaciones vectoriales midiendo el cambio en la activación interna con respecto al modelo base. Esta representación permite una agrupación efectiva entre dominios y tareas, revelando la estructura del panorama del modelo. Las Activaciones Delta presentan propiedades deseables, incluyendo robustez a las configuraciones de ajuste fino y propiedades aditivas cuando se mezclan conjuntos de datos de ajuste fino. Además, las Activaciones Delta pueden incrustar tareas en múltiples rondas de ajuste fino, lo que demuestra un potencial adicional para la selección y fusión de modelos. Esperamos que las Activaciones Delta faciliten la reutilización de modelos disponibles públicamente. El código se puede encontrar en https://github.com/OscarXZQ/delta_activations .
Presentamos la activación delta, un método novedoso para representar y comparar eficazmente LLM ajustados.
◦
Agrupe los LLM por dominio y tarea para facilitar la exploración y comprensión del modelo.
◦
Sugiere posibles aplicaciones en la selección y fusión de modelos.
◦
Puede promover la reutilización de LLM disponibles públicamente.
•
Limitations:
◦
Se necesitan más investigaciones para determinar qué tan bien se generaliza el rendimiento de la activación delta en diferentes arquitecturas LLM y configuraciones de ajuste.
◦
Se necesitan más análisis para determinar la interpretabilidad y confiabilidad de la activación delta para tareas o dominios específicos.
◦
Se requiere una evaluación más profunda de la escalabilidad y el costo computacional del método propuesto.