Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Transplant Then Regenerate: A New Paradigm for Text Data Augmentation

Created by
  • Haebom

作者

Guangzhan Wang、Hongyu Zhang、Beijun Shen、Xiaodong Gu

概要

本稿では、大規模言語モデル(LLM)を活用した新しいテキスト拡張パラダイムであるLMTransplantを提案します。 LMTransplantは、従来の逆翻訳などの単純な語彙レベルのバリエーションではなく、LLMの知識を活用してコンテンツレベルで多様で創造的なバリエーションを作成することを目的としています。これは、「移植 - 再生」戦略を通じて、つまりLLMによって拡張されたコンテキストに元のテキストを統合し、LLMに変換されたテキストを生成することによって達成されます。実験の結果、LMTransplantは従来の方法より優れた性能を示し、拡張データサイズが増加するにつれて拡張性も優れていることを確認した。

Takeaways、Limitations

Takeaways:
LLMを活用して既存のテキスト拡張方法の限界を克服し、コンテンツレベルの多様で創造的なバリエーションを生成する新しい方法を提示。
LMTransplantは、従来の方法より優れた性能とスケーラビリティを示しています。
LLMの知識を有効に活用することで、テキスト拡張の​​質を向上させることができることを示しています。
Limitations:
提示された方法のパフォーマンス向上が特定のデータセットまたはタスクに限定される可能性があります。
LLMの出力を制御するのが難しい場合があり、プロンプトエンジニアリングへの依存度が高い可能性があります。
LMTransplantの有効活用には十分なコンピューティングリソースが必要になる場合があります。
👍