本稿では、大規模言語モデル(LLM)を活用した説明可能なコンテンツ調整のためのデータ効率的な2段階フレームワークであるSMARTERを紹介します。ステップ1では、LLMの出力を活用して正解と誤解の両方のラベルの合成説明を生成し、最小限の人の介入で好みの最適化を介してソートを実行します。ステップ2では、クロスモデルトレーニングで説明の質を向上させ、パフォーマンスの低いモデルがパフォーマンスの高いモデルのスタイルと意味を学習するようにします。 HateXplain、Latent Hate、Implicit Hate 3つのベンチマーク操作の実験結果、SMARTERは、フルトレーニングデータの一部のみを使用しながら、標準の数ショットベースラインよりも最大13.5%のマクロF1向上を達成することを示しています。このフレームワークは、LLMの自己改善機能を分類と説明の両方に活用して、低資源環境で拡張可能な戦略を提供します。本稿では、有毒なコンテンツの例が含まれていることを警告します。