Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article propose le framework FastCache pour réduire le coût de calcul des transformateurs de diffusion (DiT). FastCache utilise une double stratégie pour accélérer l'inférence en exploitant la redondance dans la représentation interne du modèle. Premièrement, il utilise un mécanisme de sélection de jetons spatialisé qui filtre de manière adaptative les jetons redondants en fonction de l'importance des états cachés. Deuxièmement, il utilise un cache au niveau du transformateur qui réutilise les activations latentes sur plusieurs pas de temps lorsque les changements sont statistiquement insignifiants. L'approximation linéaire apprenable réduit les calculs inutiles tout en préservant la fidélité de la génération. L'analyse théorique démontre que FastCache maintient une erreur d'approximation bornée sous des règles de décision basées sur des tests d'hypothèses. Les évaluations expérimentales de différentes variantes de DiT démontrent des réductions significatives de la latence et de l'utilisation de la mémoire, et permettent d'obtenir la meilleure qualité de sortie de génération par rapport aux autres méthodes de cache, mesurée par les métriques FID et t-FID. Le code de FastCache est disponible sur GitHub ( https://github.com/NoakLiu/FastCache-xDiT ) .
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons FastCache, un nouveau framework de mise en cache et de compression qui réduit efficacement le coût de calcul de DiT.
◦
Amélioration de l'efficacité grâce à une double stratégie de sélection de jetons spatialement conscients et de mise en cache au niveau du transformateur.
◦
Maintenir la qualité de la génération grâce à une approximation linéaire apprenable.
◦
A démontré des performances supérieures par rapport aux autres méthodes basées sur les mesures FID et t-FID.
◦
Assurer la reproductibilité et l'évolutivité en rendant le code public via GitHub.
•
Limitations:
◦
L’efficacité de la méthode proposée peut dépendre de variantes et d’ensembles de données DiT spécifiques.
◦
La performance des règles de décision basées sur des tests d’hypothèses est affectée par la validité des hypothèses.
◦
D’autres expériences avec des variantes DiT plus diverses et des ensembles de données plus volumineux sont nécessaires.
◦
Des recherches supplémentaires peuvent être nécessaires sur l’optimisation des hyperparamètres de FastCache.