Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Spotlighter: Revisando el ajuste de indicaciones desde una perspectiva de minería representativa
Created by
Haebom
Autor
Yutong Gao, Maoyuan Shao, Xinyang Huang, Chuang Zhu, Lijuan Sun, Yu Weng, Xuan Liu, Guoshun Nan
Describir
Basándonos en el éxito del ajuste de indicadores de CLIP, proponemos Spotlighter, un marco ligero de selección de tokens que mejora simultáneamente la precisión y la eficiencia al eliminar características redundantes o débilmente correlacionadas que generan costos computacionales innecesarios. Spotlighter evalúa la activación de cada token visual tanto a nivel de muestra por muestra como semántico por semántica, reteniendo solo los tokens con mayor puntuación para predicciones posteriores. Un banco de memoria semántica de prototipos aprendidos, específico de cada clase, mejora esta selección, garantizando la representatividad semántica y compensando las características descartadas. También introducimos un mecanismo de clasificación en dos etapas que pondera dinámicamente las interacciones token-prototipo para priorizar las claves informativas. En 11 pruebas de referencia de pocos disparos, Spotlighter mejora la precisión de la media armónica hasta en un 11,19 % con respecto a CLIP y alcanza una mejora de hasta 0,800 FPS con solo 21 parámetros adicionales. Estos resultados establecen a Spotlighter como una base eficaz y escalable para el ajuste de indicadores. El código está disponible en https://github.com/greatest-gourmet/Spotlighter .
Presentamos un marco de selección de tokens liviano y efectivo que mejora simultáneamente la precisión y la eficiencia del ajuste rápido.
◦
Reduzca los costos computacionales innecesarios y mejore la precisión al evaluar la activación del token a nivel de muestra y semántico.
◦
Aprovechamos los bancos de memoria semántica específicos de cada clase para garantizar la representatividad semántica y compensar las características descartadas.
◦
Un mecanismo de clasificación de dos pasos prioriza las señales informativas.
◦
Supera a CLIP en varios puntos de referencia.
•
Limitations:
◦
Tal vez sea necesaria una mayor validación de la generalidad del método propuesto.
◦
Es posible que se requiera optimización para conjuntos de datos o tareas específicos.
◦
Tal vez se necesiten más investigaciones sobre el tamaño y la estructura del banco de memoria.