Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

$\Mu$KE : Matryoshka Édition de connaissances non structurées de grands modèles de langage

Created by
  • Haebom

Auteur

Zian Su, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang

Contour

Cet article aborde les défis des modèles linguistiques à grande échelle (LLM), confrontés à des difficultés telles que les hallucinations et les risques de sécurité liés aux limitations des données d'entraînement statiques. Si le paradigme de localisation et d'édition, qui modifie les connaissances internes du modèle, s'est avéré être une alternative rentable au réentraînement, les approches non structurées actuelles, en particulier les méthodes autorégressives basées sur des fenêtres, perturbent souvent les dépendances causales entre les mises à jour initiales de la mémoire et les jetons de sortie ultérieurs. Cette étude analyse théoriquement ces limitations et présente l'édition de connaissances non structurées Matryoshka ($\mu$KE), un nouveau mécanisme de mise à jour de la mémoire qui préserve ces dépendances grâce à des objectifs de type Matryoshka et des coefficients de perte adaptatifs. Des évaluations expérimentales sur quatre benchmarks pour deux modèles démontrent que $\mu$KE améliore l'efficacité de l'édition jusqu'à 12,33 % par rapport aux méthodes de pointe et reste robuste sous différents formats d'édition, soulignant le potentiel d'une édition efficace des connaissances non structurées dans les LLM.

Takeaways, Limitations

Takeaways:
L'édition des connaissances non structurées de Matryoshka ($\mu$KE) montre une efficacité jusqu'à 12,33 % supérieure à celle des méthodes traditionnelles d'édition des connaissances non structurées.
Il maintient de solides performances même pour l'édition dans divers formats.
Nous présentons une approche efficace pour éditer les connaissances informelles dans les LLM.
Nous présentons un mécanisme qui maintient efficacement les dépendances causales entre les mises à jour de mémoire initiales et les jetons de sortie ultérieurs.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralité et l’évolutivité de la méthode proposée.
Une évaluation plus poussée des performances de $\mu$KE pour différentes architectures et tailles LLM est nécessaire.
Une validation supplémentaire de l’applicabilité et de la sécurité dans des environnements réels est nécessaire.
👍