Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks

Created by
  • Haebom

作者

Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim

概要

VolDoGerは、視覚言語の課題(画像キャプションの作成、視覚的な質問の回答、視覚的な意味)のためのドメイン一般化のための新しいデータセットです。従来のビジュアル言語課題のドメイン一般化研究は、適切なデータセットの欠如に限定されていましたが、VolDoGerはLLMベースのデータ注釈技術を活用してこの問題を解決し、大規模なデータセットを構築しました。さまざまなモデル(微調整モデルから最新のマルチモーダルLLMまで)をVolDoGerで評価して、ドメイン一般化のパフォーマンスを分析しました。

Takeaways、Limitations

Takeaways:
視覚言語の課題のドメイン一般化研究のための標準データセットの提供
LLMベースのデータ注釈技術を活用した効率的なデータセット構築方法の提示
さまざまなモデルのドメイン一般化性能比較分析のための基盤
Limitations:
LLMベースのデータ注釈の正確性と信頼性の追加検証が必要
VolDoGerデータセットのドメインの多様性と代表性の追加分析が必要
特定のLLMに依存するデータセット生成方式による偏向の可能性の存在
👍