Share
Sign In
⬆️

方向性刺激誘導:目標到達をよりよくするための技術

方向性刺激プロンプト(Directional Stimulus Prompting, DSP)はZekun Liチームが2023年に公開した<Guiding Large Language Models via Directional Stimulus Prompting>論文で提案された方式です。
Guiding Large Language Models via Directional Stimulus Prompting.pdf1.98MB
方向性刺激プロンプトは、大規模言語モデル(LLM)を特定の望ましい結果に導くための新しいフレームワークです。この方法は、直接LLMを調整するのではなく、小型で調整可能なポリシーモデル(T5など)を使用して、各入力インスタンスに対して補助方向性刺激プロンプトを生成します。これらの方向性刺激プロンプトは、インスタンス固有の細かいヒントと手がかりとして機能し、LLMが望ましい結果を生成するように誘導します。

実際の例

入力テキスト:Bob Barkerが「The Price Is Right」ショーで8年ぶりに戻りました。
参照の概要:Bob Barkerは水曜日に「The Price Is Right」の進行を担当しました。 Barkerは2007年に進行を引退しました。
💡
方向性刺激プロンプト:質問:上記の記事に基づいて、ヒントに従って2〜3文に簡単にまとめます。ヒント:Bob Barker;テレビ; 4月1日; 「The Price Is Right」; 2007; 91。
モデル出力:4月1日、Bob Barkerが8年ぶりにテレビ番組「The Price Is Right」に戻りました。 91歳のBarkerは、活気のある最初の価格推測ゲームを処理しました。バーカーは2007年に進行中だったが、まだ拍子を逃さなかった。

どこに書くの?

この方法は、SFT(Supervised Fine-Tuning、Supervised Fine-Tuning)を使用してラベル付きデータを使用してポリシーモデルを最適化し、強化学習(RL)を使用してLLMの出力に応じてオンラインまたはオフライン報酬を通じてさらに最適化します。
DSPは、コンパクトで調整可能な言語モデル(例:強化学習モデル)を使用して、LLMの応答を望ましい結果に導くヒントや手がかりを作成します。
従来の微調整方法よりも大きな制御力を提供し、モデルの応答を案内しながらもモデルの一般的な能力を維持します。

実際の活用例:

カスタマーサービスの分野では、DSPは顧客の苦情を分析し、迅速かつ正確な解決策を提供することによって効率を向上させ、人間の努力を支援するために活用することができます。
カスタマーサービスの状況では、「顧客が配送遅延について苦情を申し立てる」というプロンプトで、DSPは「謝罪、安心させる、解決策を提供する」などのヒントを生成し、LLMが「配送遅延について謝罪し、注文が優先されます。ランキングになってすぐに到着するようにアクションを取っています。
🤹
↔️
ⓒ 2023. Haebom, all rights reserved.
ソースを表示し、著作権者の許可の下で営利目的で使用することができます。
👍