Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

Created by
  • Haebom

Auteur

Guangzhan Wang, Hongyu Zhang, Beijun Shen, Xiaodong Gu

Contour

Cet article propose LMTransplant, un nouveau paradigme d'augmentation de texte exploitant les modèles linguistiques à grande échelle (MLH). Pour pallier les limites des méthodes d'augmentation de texte existantes, qui se concentrent principalement sur les transformations au niveau lexical et, par conséquent, manquent de diversité tout en préservant le sens, LMTransplant intègre le texte source au contexte étendu généré par le LH, puis demande à ce dernier de régénérer le texte transformé. Cela permet au LH d'exploiter ses connaissances intrinsèques pour générer des transformations de contenu plus diversifiées et créatives, tout en préservant les propriétés fondamentales du texte source. LMTransplant surpasse les méthodes existantes sur diverses tâches liées au texte et démontre une excellente évolutivité face à l'augmentation de la taille des données augmentées.

Takeaways, Limitations

Takeaways:
Nous proposons une nouvelle méthode d'augmentation de texte utilisant LLM pour surmonter les limitations des méthodes existantes.
Capacité à créer des variations de texte diverses et créatives à n'importe quel niveau de contenu.
Préserver les propriétés essentielles du texte original.
Excellente évolutivité à mesure que la taille des données augmentées augmente.
Surpasse les méthodes existantes dans diverses tâches liées au texte.
Limitations:
Ce document ne fournit peut-être pas d’informations détaillées sur les types et tailles spécifiques des LLM, ni sur les stratégies d’ingénierie rapides.
Seuls les résultats de l’évaluation des performances pour des tâches spécifiques sont présentés, des recherches supplémentaires sont donc nécessaires pour déterminer la généralisabilité à d’autres tâches.
ÉTant donné que cela dépend des performances de LLM, les limitations de LLM peuvent également affecter les performances de LMTransplant.
👍