Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Synthetic vs. Gold: The Role of LLM Generated Labels and Data in Cyber​​bullying Detection

Created by
  • Haebom

作者

Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Kanishk Verma, Brian Davis

概要

この論文は、子供を含むオンラインユーザーのためのサイバー嫌がらせ(CB)検出システムの開発の難しさについて説明します。具体的には、子供の言語とコミュニケーションを反映したラベル付きデータ不足の問題を解決するために、大規模言語モデル(LLM)を活用して合成データとラベルを生成する方法を紹介します。実験の結果、LLMによって生成された合成データで訓練されたBERTベースのCB分類器は、実際のデータで訓練された分類器と同様の性能(75.8%対81.5%の精度)を達成しました。さらに、LLMは実際のデータのラベル付けにも有効であり、これによりBERT分類器は同様の性能(79.1%対81.5%の精度)を示しました。これは、LLMがサイバー嫌がらせ検出データを生成するためのスケーラブルで倫理的で費用対効果の高いソリューションであることを示唆しています。

Takeaways、Limitations

Takeaways:
LLMを活用して、サイバーハラスメント検出システムのデータ生成とラベリングの問題を効果的に解決できることを示しています。
倫理的、法的、技術的制約のために困難に苦しむ子供向けのサイバー嫌がらせデータの確保の問題に対する実用的な解決策を提示します。
LLMベースの合成データを活用することで、費用対効果が高くスケーラブルなサイバー嫌がらせ検出システムを構築できます。
Limitations:
合成データを使用したモデルのパフォーマンスは、実際のデータを使用したモデルよりわずかに低い(75.8%対81.5%)。パフォーマンスの違いを減らすためのさらなる研究が必要です。
LLMによって生成されたデータの品質と多様性の追加検証が必要です。
LLMによって生成されたデータが実際の子供の言語使用パターンをどれだけ正確に反映するかについての評価が必要です。
👍