Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization

Created by
  • Haebom

作者

Xue-Yong Fu, Elena Khasanova, Md Tahmid Rahman Laskar, Harsh Saini, Shashi Bhushan TN

概要

大規模言語モデル(LLM)はテキストの要約で印象的なパフォーマンスを示していますが、事前学習分布や他の専門分野に適用するとパフォーマンスが低下する傾向があります。ファインチューニングは要約品質を向上させることができますが、高品質のラベル付きデータが必要です。この研究では、雑音のある実際の会話内容を含む下流の要約作業にLLMを適応させるために、スケーラブルで自己指導学習方式である継続的な事前学習を探求します。大規模でラベル付けされていないビジネス会話データを使用して、継続的な事前学習が会話の要約でモデルの能力を向上させるかどうかの広範な実験を行った。その結果、継続的な事前学習は、インドメインとアウトオブドメインサマリーベンチマークの両方でかなりの利点を得て、強力な一般化と堅牢性を維持することを確認しました。また、データ選択戦略の効果を分析し、要約指向の産業アプリケーションで継続的な事前学習を適用するための実践的なガイダンスを提供します。

Takeaways、Limitations

Takeaways:
継続的な事前学習は、高品質のラベル付きデータがなくても、LLMを特定のドメインに効果的に適応させる方法です。
継続的な事前学習は、In-domainとout-of-domainの要約の両方でパフォーマンスの向上をもたらします。
データ選択戦略は、継続的な事前学習のパフォーマンスに影響を与える可能性があり、産業用途に適用するための実践的なガイダンスを提供します。
Limitations:
この研究は特定の種類のデータ(ビジネス会話)に焦点を当てているため、他のドメインに対する一般化の可能性をさらに検証する必要があります。
データ選択戦略の効果のさらなる分析が必要です。
継続的な事前学習の最適パラメータとハイパーパラメータの研究が必要です。
👍