Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Created by
  • Haebom

作者

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

概要

大規模マルチモードモデル(LMM)は、視覚的な質問応答(VQA)、画像キャプションの作成、グラウンディングなどの作業で広範囲にテストされていますが、公平性、倫理、包含性などの人間中心(HC)値との整列の厳格な評価が不足しています。これらのギャップを解決するために、本稿では32,000の実際の画像 - 質問ペアと評価ツールで構成される新しいベンチマークHumaniBenchを紹介します。ラベルはAIサポートパイプラインによって作成され、専門家によって検証されます。 HumaniBenchは、さまざまなオープンタイプおよびクローズドVQA作業を通じて、公平性、倫理、共感、許容性、推論、堅牢性、多言語サポートなど、7つの主要なソート原則に従ってLMMを評価します。 AI倫理と実際の要件に基づくこれらの原則は、社会的影響に対するホリスティックな視点を提供します。さまざまなLMMのベンチマーク結果は、独自のモデルが一般に推論、公平性、および多言語サポートに先立ち、オープンソースモデルが堅牢性とグラウンディングに優れていることを示しています。ほとんどのモデルは、正確性と倫理的で包括的な行動のバランスをとるのに苦労しています。思考連鎖プロンプトやテストタイムスケーリングなどの技術は、整列を改善します。 HCアライメント用にカスタマイズされた最初のベンチマークとして、HumaniBenchは限界を診断し、責任あるLMMの開発を促進する厳格なテストベッドを提供します。すべてのデータとコードは再現性のために公開されています。

Takeaways、Limitations

Takeaways:
人間中心の価値との整合のためのLMMの厳格な評価のための最初のベンチマークであるHumaniBenchの提示。
さまざまなVQA作業を通じて、公平性、倫理、共感、包容性、推論、堅牢性、多言語サポートなど7つの主要なソート原則を評価します。
独自モデルとオープンソースモデルの強みと弱点を比較分析。
思考連鎖プロンプトやテストタイムスケーリングなどの技術が、LMMのアライメントの向上に貢献することを示しています。
すべてのデータとコード開示による再現性の確保
Limitations:
HumaniBenchが扱う倫理的、社会的考察の包括性に関するさらなる研究が必要です。
特定のモデルまたは技術に対する偏りの可能性の存在。
ベンチマークの範囲はVQA操作に限定されています。他のマルチモード操作への拡張が必要です。
AIサポートラベリングパイプラインの信頼性と正確性に関する追加の検証が必要です。
👍