Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LLM Robustness Leaderboard v1 --Technical report

Created by
  • Haebom

作者

Pierre Peign e - Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe

概要

PRISM Eval は Paris AI Action Summit のために LLM の堅牢性ランキングを発表し、それに関する技術報告書を提出した。このレポートでは、動的敵対最適化によって自動化された敵対テストを実行するAIシステムであるPRISM Eval Behavior Elicitation Tool(BET)を紹介します。 BETは最先端LLM 41個のうち37個に対して100%の攻撃成功率(ASR)を達成しました。単純成功/失敗評価を超えて、有害行動を導くのに必要な平均試行回数を推定する細分化された堅牢性指標を提案し、モデル間攻撃難易度が300倍以上差が残るように見えました。さらに、特定のリスクカテゴリに最も効果的な脱獄技術を識別するための基本レベルの脆弱性分析を導入しました。 AI Safety Networkの信頼できる第三者とのコラボレーション評価により、コミュニティ全体にわたって分散した堅牢性を評価するための実用的なパスを提供します。

Takeaways、Limitations

Takeaways:
動的敵対的最適化に基づく自動化された敵対テストシステム(BET)は、LLMの脆弱性を効果的に評価できることを示しています。
LLMの堅牢性レベルがモデルごとに大きく異なることを定量的に測定し、細分化された堅牢性指標を提示する。
特定のリスクカテゴリーに有効な脱獄技術を分析し、LLMの開発と安全性の向上のための具体的な方向性を提示します。
分散型堅牢性評価のためのコラボレーションモデルを提示し、コミュニティベースのLLM安全性の確保に貢献します。
Limitations:
現在、41のLLMのみが評価されており、より多くのモデルの評価が必要です。
BETの攻撃成功率が100%に達しなかった4つのLLMの追加分析が必要。
提示された細分化された堅牢性指標の一般化の可能性と限界に関するさらなる研究が必要です。
特定の脱獄技術の有効性は、LLMの具体的な構造および設計によって異なり得るので、より包括的な分析が必要である。
👍