Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

Created by
  • Haebom

作者

Grigor Bezirganyan, Sana Sellami, Laure Berti- Equille, S ebastien Fournier

概要

LUMAは、さまざまな情報源(テキスト、画像、オーディオ、ビデオ)を統合して意思決定を向上させるマルチモーダルディープラーニングの信頼性を高めるために設計された新しいデータセットです。既存のCIFAR-10/100データセットを拡張してオーディオとテキストデータを追加し、特に不確実なデータから学習することを目的として、さまざまな種類と程度の不確実性を制御して注入できるように設計されています。オーディオデータは3つのオーディオコーパスから抽出され、テキストデータはGemma-7B LLMを用いて生成された。 LUMAは、データの多様性、各モダリティのノイズ量、分布外のサンプルの追加などを制御して、データセットの複数のバリエーションを生成する関数を含むPythonパッケージで提供されています。ベースラインの事前訓練モデル、Monte-Carlo Dropout、Deep Ensemble、Reliable Conflictive Multi-View Learningなど、3つの不確実性定量化方法も付属しています。これにより、信頼性が高く堅牢なマルチモーダルディープラーニング方法の開発、評価、ベンチマークをサポートします。

Takeaways、Limitations

Takeaways:
さまざまな種類とレベルの不確実性を制御して注入できるマルチモーダルデータセットを提供し、信頼できるマルチモーダルモデルの開発を促進します。
不確実性定量化方法とベースラインモデルを組み合わせることで、研究者の利便性を高めます。
安全重要アプリケーションのためのより信頼性が高く堅牢な機械学習アプローチの設計に貢献できます。
Pythonパッケージで提供され、アクセシビリティと使いやすさが向上します。
Limitations:
現在提供されている不確実性の定量化方法は限定的であり得る。
データセットの規模が異なる大規模なマルチモーダルデータセットと比較して、比較的小さい場合があります。
Gemma-7B LLMを使用して生成されたテキストデータの品質と多様性をさらに検証する必要があるかもしれません。
さまざまな種類の不確実性をすべて網羅できない場合があります。
👍