Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EigenBench: A Comparative Behavioral Measure of Value Alignment

Created by
  • Haebom

作者

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine

概要

EigenBenchは人工知能の価値整列問題解決のための新しいベンチマーク方法論である。既存の定量的指標不足の問題を解決するために、様々な言語モデルの価値整列レベルを比較的比較評価するブラックボックス方式を提案する。さまざまなモデルの集合、価値システムを記述する憲法、およびシナリオデータセットを入力して、各モデルの与えられた憲法との整列レベルを定量化するベクトルスコアを出力します。各モデルは異なるモデルの出力をさまざまなシナリオで評価し、EigenTrustアルゴリズムを介してこれらの評価を集計し、アンサンブル全体の加重平均判断を反映するスコアを計算します。正解ラベルを使用せずに、合理的な判断者の間でも意見が異なる可能性がある特性を定量化するように設計されています。プロンプトペルソナを使用した実験では、EigenBenchスコアがモデルまたはプロンプトにどれほど敏感であるかをテストしたところ、ほとんどの分散はプロンプトで説明されていますが、小さな残差はモデル自体の傾向を定量化することがわかりました。

Takeaways、Limitations

Takeaways:
人工知能の価値アラインメントを定量的に測定する新しい方法の提示
既存の正解ラベルに依存しないブラックボックス方式を採用
モデル自体の価値傾向を測定する可能性を提示
Limitations:
プロンプトの影響がモデルの影響よりも大きく現れる(モデル自体の価値傾向測定の精度について疑問を提起)
EigenTrustアルゴリズムの性質による結果に対する解釈の難しさの存在
さまざまな価値システムとシナリオの一般化可能性検証が必要
👍