Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Oubliez les données et les réglages ! Pliez simplement le réseau pour compresser

Created by
  • Haebom

Auteur

Dong Wang, Haris \v{S}iki c, Lothar Thiele, Olga Saukh

Contour

Cet article propose le repliement de modèles, une nouvelle technique de compression de modèles sans données. Cette technique fusionne des neurones structurellement similaires entre les couches, réduisant ainsi considérablement la taille du modèle sans ajustement fin ni accès aux données d'apprentissage. Contrairement aux méthodes existantes, elle utilise le clustering k-means et une nouvelle technique sans données pour prévenir l'effondrement ou l'explosion de la variance, préservant ainsi les statistiques des données pendant la compression. Grâce à des cadres théoriques et à des expériences sur des benchmarks standard, notamment ResNet18 et LLaMA-7B, nous démontrons que le repliement de modèles atteint des performances comparables à celles des techniques de compression pilotées par les données et surpasse les méthodes sans données récemment proposées, notamment à des niveaux de parcimonie élevés. Cette méthode est particulièrement efficace pour la compression de modèles à grande échelle, ce qui la rend adaptée à un déploiement dans des environnements aux ressources limitées.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode de compression de modèle sans données est présentée.
Performances supérieures à des niveaux de parcimonie plus élevés que les méthodes sans données existantes
Efficace pour compresser des modèles à grande échelle, adapté aux environnements à ressources limitées.
Préserver les statistiques de données à l'aide du clustering k-means
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée.
D’autres expériences sont nécessaires sur différentes architectures de modèles et ensembles de données.
Une analyse de sensibilité est nécessaire pour le paramétrage du clustering k-means.
👍