Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Affiner les stratégies de réglage fin clairsemé tenant compte de la saillance pour les modèles de langage

Created by
  • Haebom

Auteur

Xinxin Liu, Aaron Thomas, Cheng Zhang, Jianyi Cheng, Yiren Zhao, Xitong Gao

Contour

Cet article se concentre sur la méthode basée sur la parcimonie pour le réglage fin efficace des paramètres (PEFT) (SPEFT). Contrairement aux méthodes d'adaptation basse dimensionnelle existantes (par exemple, LoRA), la SPEFT introduit une adaptation de parcimonie apprenable à la matrice de pondération du modèle, offrant une plus grande flexibilité dans la sélection des paramètres de réglage fin. Inspirés par le proxy NAS à coût nul, nous effectuons la première évaluation systématique des métriques d'importance pour la SPEFT et constatons que les métriques simples basées sur le gradient sont fiables et performantes avec les meilleures alternatives. Nous comparons également les stratégies de masquage statique et dynamique et constatons que le masquage statique est efficace sans dégradation des performances, tandis que le masquage dynamique n'apporte aucun avantage substantiel. Dans les tâches de TAL, la SPEFT statique simple basée sur le gradient surpasse systématiquement les autres méthodes de réglage fin LLM, fournissant une base de référence simple mais efficace pour la SPEFT. Cette étude remet en question l'idée selon laquelle une PEFT efficace nécessite de la complexité et fournit une référence reproductible pour les recherches futures grâce à un framework open source ([ https://github.com/0-ml/speft]) .

Takeaways, Limitations

Takeaways:
Nous démontrons expérimentalement qu'un SPEFT statique simple basé sur un gradient surpasse les autres méthodes de réglage fin LLM.
Nous montrons que la stratégie de masquage statique est plus efficace que le masquage dynamique et est efficace sans dégradation des performances.
Cela suggère que les méthodes PEFT de haute complexité ne garantissent pas toujours les meilleures performances.
Fournit un cadre open source pour améliorer la reproductibilité des recherches futures.
Limitations:
À Ce jour, seules des évaluations ont été menées sur des tâches de PNL, et la généralisabilité à d’autres domaines ou tâches nécessite des études plus approfondies.
L’amélioration des performances de la méthode proposée peut varier en fonction de l’ensemble de données et du modèle spécifiques.
La fiabilité des mesures d’importance basées sur le gradient nécessite une validation supplémentaire sur différents modèles et ensembles de données.
👍