Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SMARTER: A Data-efficient Framework to Improve Toxicity Detection with Explanation via Self-augmenting Large Language Models

Created by
  • Haebom

作者

Huy Nghiem, Advik Sachdeva, Hal Daum e III

概要

本稿では、大規模言語モデル(LLM)を活用した説明可能なコンテンツ調整のためのデータ効率的な2段階フレームワークであるSMARTERを紹介します。ステップ1では、LLMの出力を活用して正解と誤解の両方のラベルの合成説明を生成し、最小限の人の介入で好みの最適化を介してソートを実行します。ステップ2では、クロスモデルトレーニングで説明の質を向上させ、パフォーマンスの低いモデルがパフォーマンスの高いモデルのスタイルと意味を学習するようにします。 HateXplain、Latent Hate、Implicit Hate 3つのベンチマーク操作の実験結果、SMARTERは、フルトレーニングデータの一部のみを使用しながら、標準の数ショットベースラインよりも最大13.5%のマクロF1向上を達成することを示しています。このフレームワークは、LLMの自己改善機能を分類と説明の両方に活用して、低資源環境で拡張可能な戦略を提供します。本稿では、有毒なコンテンツの例が含まれていることを警告します。

Takeaways、Limitations

Takeaways:
LLMの自己改善能力を活用して、データ効率的な説明可能なコンテンツ調整フレームワークを提示。
低資源環境でもスケーラブルなコンテンツ調整戦略を提供
合成記述の生成とクロスモデル訓練による性能向上と説明品質の改善
最小限の人の介入でLLMの位置合わせの可能性を示します。
Limitations:
論文で扱う有毒コンテンツの例は倫理的問題を引き起こす可能性があります。
提示されたフレームワークの一般化性能に関するさらなる研究が必要です。
特定のLLMに依存しているか、他のLLMにも適用可能であることを検証する必要があります。
使用されたベンチマークデータセットの制限を考慮する必要があります。
👍