Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MIRROR: Modular Internal Processing for Personalized Safety in LLM Dialogue

Created by
  • Haebom

作者

Nicole Hsing

概要

MIRRORは、パーソナライズされたマルチターン会話でユーザーの安全関連の文脈を維持し、お世辞の傾向を抑制し、ユーザーの安全を優先する方法で有害な推薦を防止するモジュラーアーキテクチャです。デュアルプロセス理論からインスピレーションを得て、即時応答生成(Talker)と非同期的な審査熟考処理(Thinker)で構成されます。 CuRaTe安全ベンチマークでは、MIRRORはさまざまなモデルで21%の相対的な改善を示し、オープンソースモデルが商用モデルを上回る結果を示しました。

Takeaways、Limitations

Takeaways:
パーソナライズされた会話で有害な推薦を減らすのに効果的なモジュラーアーキテクチャの提示
オープンソースモデルの安全性を向上させ、商用モデルとのギャップを狭める
低コストで安全なAIのアクセシビリティを向上
柔軟な展開のためのモジュラーアーキテクチャの設計
Limitations:
具体的なLimitationsは論文の内容に直接記載されていません。
👍