Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ViLBias: Detecting and Reasoning about Bias in Multimodal Content

Created by
  • Haebom

作者

Shaina Raza, Caesar Saleh, Azib Farooq, Emrul Hasan, Franklin Ogidi, Maximus Powers, Veronica Chatrath, Marcelo Lotif, Karanpal Sekhon, Roya Javadi, Haad Zahid, Anam Zahid, Vahid Reza Khazaie, Zhenyu Yu

概要

本論文は、テキスト分類を超えてテキストと画像のペアを推論することによってマルチモーダルニュースで偏りを検出するモデルの必要性を強調し、そのためにVQAスタイルのベンチマークとフレームワークであるViLBiasを提示します。 ViLBiasは、さまざまなメディアで収集された40,945のテキスト - 画像ペアで構成されたデータセットを使用しており、2段階のLLMベースの注釈パイプラインを介して偏向ラベルと簡潔な根拠が注釈されています。研究では、SLM、LLM、VLMを閉じたクエリの分類とオープンクエリ推論(oVQA)を評価し、パラメータ効率的なチューニング戦略を比較しました。画像をテキストと統合すると、検出精度が向上し、LLM / VLMがSLMよりも微妙なフレーミングとテキスト画像の不一致をよりよく捉えることが確認されました。パラメータ効率的な方法(LoRA / QLoRA / Adapters)は、全体的な微調整性能の97〜99%を<5%の学習可能なパラメータに復元しました。 oVQAの場合、推論精度は52〜79%、忠実度は68〜89%であり、インスツルメントチューニングで改善され、クローズドクエリの精度は推論と強い相関関係を示した。 ViLBiasは、マルチモーダル偏向検出と基礎品質のための拡張可能なベンチマークと強力なベースラインを提供します。

Takeaways、Limitations

Takeaways:
テキストと画像を一緒に使用すると、偏向検出の精度が向上します。
LLM / VLMはSLMよりも微妙な偏向をよりよく捉えます。
パラメータ効率的なチューニング技術により、性能を低下させることなくモデルを軽量化できます。
OVQAを使用してモデルの推論能力を評価し、インストゥルメントチューニングを介して向上させることができます。
閉じたクエリの精度と推論能力との間に高い相関関係が存在する。
Limitations:
論文自体に記載されているLimitationsはありません。 (arXiv論文では、まだ研究が進行中である可能性があり、将来のバージョンでLimitationsを追加する可能性があります)
👍