Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning

Created by
  • Haebom

作者

Yiming Lin, Yuchen Niu, Shang Wang, Kaizhu Huang, Qiufeng Wang, Xiao-Bo Jin

概要

この論文は、コンピュータビジョンから画像から構造化された意味的要約を抽出する状況認識(Scene Recognition、SR)作業に焦点を当てています。従来のSR法が動詞分類を単一ラベル問題として扱うのとは異なり、この論文は、1つの画像が複数の動詞カテゴリで説明される可能性があるあいまいさを指摘しています。これを解決するために、動詞分類をマルチラベル問題に上書きし、特に単一陽性マルチラベル学習(SPMLL)問題にアプローチする新しい視点を提示します。大規模なデータセットに対する完全なマルチラベルアノテーションの難しさを考慮して、SPMLL問題を解決するためにグラフニューラルネットワークを活用してラベル相関関係を捉え、敵対的なトレーニングを通じて意思決定境界を最適化するGraph Enhanced Verb Multilayer Perceptron(GE-VerbMLP)を開発しました。実際のデータセットの広範な実験により、提案された方法は、従来のtop-1およびtop-5精度指標は、競争力を維持しながら、平均平均精度(MAP)指標で3%以上の改善を達成することを示しています。また、マルチラベル設定でモデルのパフォーマンスを公正に評価するための包括的なマルチラベル評価ベンチマークを提供します。

Takeaways、Limitations

Takeaways:
画像のあいまいさを考慮したマルチラベル動詞分類の重要性を提示し、シングルポジティブマルチラベル学習(SPMLL)という新しい視点を提示します。
GE-VerbMLPモデルによるマルチラベル動詞分類問題の性能向上を達成した。 (MAP 3%以上向上)
マルチラベル設定のための新しい評価ベンチマークを提供しました。
Limitations:
提案されたSPMLLアプローチは、大規模なデータセットに対する完全なマルチラベル注釈の難しさを前提としています。データ注釈の難しさは依然として実際の適用に制限される可能性がある。
GE-VerbMLPモデルのパフォーマンスの向上は特定のデータセットに限定される可能性があり、他のデータセットや状況での一般化パフォーマンスには追加の研究が必要です。
提案された評価ベンチマークの一般性と汎用性の追加検証が必要です。
👍