Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Created by
  • Haebom

作者

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

概要

この論文は、大規模マルチモードモデル(LMM)の人間中心(HC)値(公正性、倫理、包容性など)との整列の厳格な評価が不足していることを指摘し、これを解決するための新しいベンチマークHumaniBenchを提示します。 HumaniBenchは、32,000の実際の画像と質問のペアと評価ツールで構成されており、AIサポートパイプラインと専門家の検証によってラベルが作成されます。公平性、倫理、共感、包容性、推論、堅牢性、多言語サポートなど、7つの重要なアライメントの原則にわたって、さまざまなオープンタイプおよびクローズドVQAタスクを使用してLMMを評価します。さまざまなLMMのベンチマーク結果は、独自のモデルが推論、公平性、多言語サポートで一般的に進み、オープンソースモデルが堅牢性と基盤の構築に優れていることを示しています。ほとんどのモデルは、正確性と倫理的かつ包括的な行動のバランスをとるのに苦労しています。 Chain-of-Thoughtプロンプトやテスト時間スケーリングなどの手法は、整列を改善します。 HumaniBenchはHCアライメント用に設計された最初のベンチマークで、限界を診断し、責任あるLMMの開発を促進する厳格なテストベッドを提供し、すべてのデータとコードは再現性のために公開されています。

Takeaways、Limitations

Takeaways:
LMMの人間中心的価値整列の厳格な評価基準を提示する。
HumaniBenchという新しいベンチマークを通じて、LMMの公平性、倫理性、包容性などを総合的に評価可能。
Chain-of-Thoughtプロンプトやテスト時間のスケーリングなどの手法が、LMMの人間中心の価値整列の向上に有効であることを示唆。
独自モデルとオープンソースモデルの強みと弱点を比較分析することでLMM開発方向を提示
すべてのデータとコード開示による研究の再現性の確保
Limitations:
AIサポートパイプラインと専門家の検証にもかかわらず、ラベリングプロセスの主観性とエラーの可能性の存在。
現在、ベンチマークに含まれているLMMの種類と数制限で一般化に限界がある。
7つの重要な原則以外の追加の人間中心の価値を考慮する必要性。
正確性と倫理的,包括的行動間のバランスの問題に対する解決策の提示の欠如
👍