Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Spotlighter : Revoir le réglage rapide d'un point de vue minier représentatif
Created by
Haebom
Auteur
Yutong Gao, Maoyuan Shao, Xinyang Huang, Chuang Zhu, Lijuan Sun, Yu Weng, Xuan Liu, Guoshun Nan
Contour
Forts du succès du réglage des prompts de CLIP, nous proposons Spotlighter, un framework léger de sélection de jetons qui améliore simultanément la précision et l'efficacité en supprimant les caractéristiques redondantes ou faiblement corrélées qui engendrent des coûts de calcul inutiles. Spotlighter évalue l'activation de chaque jeton visuel à la fois échantillon par échantillon et sémantique par sens, ne conservant que les jetons les mieux notés pour les prédictions en aval. Une banque de mémoire sémantique de prototypes appris, spécifique à chaque classe, optimise cette sélection, garantissant la représentativité sémantique et compensant les caractéristiques ignorées. Nous introduisons également un mécanisme de classement en deux étapes qui pondère dynamiquement les interactions jeton-prototype afin de prioriser les indices informatifs. Sur 11 benchmarks à quelques prises, Spotlighter améliore la précision de la moyenne harmonique jusqu'à 11,19 % par rapport à CLIP et atteint jusqu'à 0,8 000 FPS avec seulement 21 paramètres supplémentaires. Ces résultats font de Spotlighter une référence efficace et évolutive pour le réglage des prompts. Le code est disponible à https://github.com/greatest-gourmet/Spotlighter .
Nous présentons un cadre de sélection de jetons léger et efficace qui améliore simultanément la précision et l'efficacité du réglage rapide.
◦
Réduisez les coûts de calcul inutiles et améliorez la précision en évaluant l’activation des jetons aux niveaux de l’échantillon et de la sémantique.
◦
Nous exploitons des banques de mémoire sémantique spécifiques à chaque classe pour garantir la représentativité sémantique et compenser les fonctionnalités supprimées.
◦
Un mécanisme de classement en deux étapes priorise les signaux informatifs.
◦
Il surpasse CLIP dans divers benchmarks.
•
Limitations:
◦
Une validation supplémentaire de la généralité de la méthode proposée peut être nécessaire.
◦
Une optimisation peut être nécessaire pour des ensembles de données ou des tâches spécifiques.
◦
Des recherches supplémentaires pourraient être nécessaires sur la taille et la structure de la banque de mémoire.