[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Whose View of Safety? A Deep DIVE Dataset for Pluralistic Alignment of Text-to-Image Models

Created by
  • Haebom

作者

Charvi Rastogi, Tian Huey Teh, Pushkar Mishra, Roma Patel, Ding Wang, Mark D iaz, Alicia Parrish, Aida Mostafazadeh Davani, Zoe Ashwood, Michela Paganini, Vinodkumar Prabhakaran, Verena Rieser, Lora Aroyo

概要

この論文は、さまざまな人間の経験を考慮に入れていない既存のテキスト画像(T2I)モデルの限界を指摘し、多様でしばしば矛盾する人間の価値を理解し調整することができる「多元的アライメント」を提示します。これには3つの主要な貢献があります。まず、さまざまなクロスビジュアル評価(DIVE)用の新しいマルチモードデータセットを紹介します。このデータセットは、1000のプロンプトに広範なフィードバックを提供した人口統計学的に交差する多数の評価者を介して、さまざまな安全視点の深い位置合わせを可能にします。第二に、この研究は、人口統計学的特徴がこの分野におけるさまざまな視点の重要な代理変数であることを実証的に確認し、既存の評価とは異なるかなりの文脈依存の被害認識の違いを明らかにします。第三に、効率的なデータ収集戦略、LLM判断機能、さまざまな視点に対するモデル調整の可能性など、ソートされたT2Iモデルを構築するためのTakeawaysについて説明します。この研究は、より公平で整列したT2Iシステムのための基礎ツールを提供します。

Takeaways、Limitations

Takeaways:
多様な人間価値を考慮した多元的整列概念の提示と重要性の強調
さまざまなクロスビジュアル評価(DIVE)のための新しいマルチモードデータセットを提供
人口統計学的特徴がT2Iモデルの安全性評価において重要な代理変数であることを実証的に確認する
効率的なデータ収集戦略,LLM判断機能,モデル調整可能性提示による改良型T2Iモデル構築方向の提示
より公平で整列したT2Iシステムを構築するための基礎ツールを提供
Limitations:
論文で言及されているように、機密性の高い内容が含まれており、潜在的な被害の可能性がある
DIVEデータセットの規模と一般化の可能性をさらに検証する必要性
提示された方法論の実際のT2Iモデル適用と効果に関するさらなる研究の必要性
LLM判断機能とモデル調整の可能性に関する具体的な技術的詳細の欠如
👍