[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning

Created by
  • Haebom

作者

Zhehao Zhang, Weijie Xu, Fanyou Wu, Chandan K. Reddy

概要

本論文は、大規模言語モデル(LLM)の安全アライメントアプローチが無害な質問まで過度に拒否する問題を解決するために、16,000の有害と思われる質問と44の安全関連カテゴリにわたる構造化された応答で構成されたFalseRejectという包括的なリソースを提案します。多様で複雑なプロンプトを生成するためのグラフベースの敵対的マルチエージェント相互作用フレームワークを提示し、モデルが安全な文脈と安全でない文脈を正確に区別するのを助けるために明示的な推論を含む構造化応答を提供します。 FalseRejectには、標準ディレクティブチューニングモデルと推論中心モデルの両方のためのカスタム学習データセットと、人が注釈を付けたベンチマークテストセットが含まれています。 29の最先端(SOTA)LLMの幅広いベンチマークは、継続的な過度の拒否問題を示し、FalseRejectを使用した地図学習の微調整が、全体的な安全性や一般的な言語機能を損なうことなく、不要な拒否を大幅に減らすことを実験的に実証します。

Takeaways、Limitations

Takeaways:
LLMの過度の拒否問題を解決するための新しいデータセット(FalseReject)とトレーニングフレームワークの提示。
多様で複雑なプロンプト生成のためのグラフベースの敵対的マルチエージェント相互作用フレームワークの有効性検証
FalseRejectによる微調整がLLMの安全性と有用性を同時に向上させることを実験的に証明した。
さまざまなタイプのLLMに適用可能な一般的な解決策を提示します。
Limitations:
FalseRejectデータセットのサイズと多様性の追加検証が必要です。
提案されたフレームワークの一般化性能に関するさらなる研究が必要です。
実際の環境での性能評価と安全性検証がさらに必要。
特定の言語モデルまたは特定の種類の質問に対する偏りの可能性の存在。
👍