Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!

Created by
  • Haebom

作者

Jingdi Lei, Varun Gumma, Rishabh Bhardwaj, Seok Min Lim, Chuan Li, Amir Zadeh, Soujanya Poria

概要

大規模言語モデル(LLM)の安全性は、広範な展開を可能にする最も緊急の課題の1つです。一般的な有害性に焦点を当てた既存の研究とは異なり、企業はLLMベースのエージェントが意図したユースケースに安全であるかどうかについて根本的な懸念を抱いています。この問題を解決するために、特定の目的に合わせてユーザークエリを適切に受け入れるか拒否するLLMの能力である「運用安全性」を定義し、一般および特定のエージェントのユースケースで運用安全性を測定するための評価スイートとベンチマーク「OffTopicEval」を提案します。 20のオープンウェイトLLMで構成された6つのモデルファミリの評価の結果、すべてのモデルが高いレベルの運用上の安全性を維持できないことがわかりました。この問題を解決するために,クエリベース(Q-ground)とシステムプロンプトベース(P-ground)プロンプトベースステアリング方法を提案し,OOD拒否を大幅に改善した。

Takeaways、Limitations

Takeaways:
LLMの運用安全性は広範な展開のための重要な課題であり、現在のモデルは十分なレベルの安全性を確保していません。
OffTopicEvalベンチマークは、運用安全性を評価するための便利なツールです。
プロンプトベースのステアリング方法(Q-ground、P-ground)は、OOD拒否を改善する効果的な方法であり、LLMベースのエージェントの安全性の向上に寄与することができる。
Limitations:
提示されたモデルの運用安全性スコアは全体的に低く、追加の改善が必要です。
プロンプトベースのステアリング方法がすべてのモデルとすべての状況で同じ効果を保証するかどうかをさらに検討する必要があります。
論文に記載されている内容に加えて、LLMの安全性を高めるための他の方法論の探求が必要です。
👍