Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SNaRe: Domain-aware Data Generation for Low-Resource Event Detection

Created by
  • Haebom

作者

Tanmay Parekh, Yuxuan Dong, Lucas Bandarkar, Artin Kim, I-Hung Hsu, Kai-Wei Chang, Nanyun Peng

概要

本論文では、専門分野(生医学、法律、疫学など)における事象検知(Event Detection、ED)の性能向上のためのドメイン認識合成データ生成フレームワークであるSNaReを提案します。従来の合成データ生成方式は、ラベルノイズとドメイン偏向の問題に悩まされており、SNaReはScout、Narrator、Refinerの3つのコンポーネントでこれを解決します。スカウトは、非表示データからトリガを抽出し、統計分析によってドメイン特化トリガリストを生成し、ドメインの偏りを軽減します。 Narratorはこのトリガーに基づいて高品質のドメインソートステートメントを生成し、Refinerは追加のイベント参照を識別してコメントの品質を向上させます。 3つの異なるドメインEDデータセットでの実験の結果、SNaReはゼロショット/フューショット設定で平均3〜7%のF1向上、多言語生成では4〜20%のF1向上を達成し、従来の最高性能技術を凌駕することを示しています。生成されたトリガヒット率分析と人的評価により、SNaReの高い注釈品質と減少したドメイン偏向を確認しました。

Takeaways、Limitations

Takeaways:
ドメイン特化事象検出性能を向上させるための効果的な合成データ生成フレームワークの提示
ラベルノイズとドメイン偏向の問題を効果的に解決
ゼロショットおよびフューショット学習環境で優れたパフォーマンスを実現
多言語支援による汎用性の確保
Limitations:
特定のドメインに限定された実験結果。さまざまなドメインの追加実験が必要です。
SNaReのパフォーマンス向上が特定のデータセットまたはタスクに偏る可能性があります。より幅広いデータセットとタスクの評価が必要です。
Refinerモジュールの具体的なアルゴリズムと性能の詳細な説明の欠如
合成データの生成中に発生する可能性があるバイアスの分析と解決策の不十分。
👍