Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Created by
  • Haebom

作者

Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huo, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Kr ahenb uhl, Piotr Doll ar, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

概要

本論文は、コンピュータビジョン研究に不可欠なビジョン言語モデルの研究のために、完全にオープンで再現可能なフレームワーク内に知覚言語モデル(PLM)を構築するための研究を提供します。独自のモデルからの蒸留なしで標準的なトレーニングパイプラインを分析し、大規模な合成データを活用して、特に詳細なビデオ理解において重要なデータギャップを特定します。このギャップを解消するために、280万の洗練されたビデオ質問 - 応答ペアと時空間的に基づいたビデオキャプションの人間ラベリングインスタンスを公開します。また、ビデオの「何」、「どこ」、「いつ」、「どのように」の推論能力に重点を置いた難しいビデオ理解作業を評価するためのPLM-VideoBenchという評価ツールバーを紹介します。データ、トレーニングレシピ、コード、モデルを提供し、タスクの完全な再現性を保証します。

Takeaways、Limitations

Takeaways:
独占モデルに依存しないオープンで再現可能なビジョン - 言語モデル研究フレームワークの提示
大規模な人間のラベリングデータセット(280万のビデオ質問 - 回答ペアとキャプション)を公開
ビデオを理解するための新しい評価ツールPLM-VideoBenchを提示
合成データ活用によるデータギャップ解析と解決策の提示
Limitations:
合成データの制限により、実際のデータの複雑さを完全に反映できない可能性がある
PLM-VideoBenchの評価範囲が制限される可能性がある
オープンモデルであっても、モデルの複雑さのために再現性を確保するのが困難な研究者がいる可能性があります
👍