[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Epic-Sounds: A Large-scale Dataset of Actions That Sound

Created by
  • Haebom

作者

Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman

概要

EPIC-SOUNDSは、イーゴセントリックビデオのオーディオストリーム内で時間範囲とクラスラベルをキャプチャする大規模なオーディオコメントデータセットです。アノテーターは、区別可能なオーディオセグメントに時間的なラベルを付け、そのサウンドを引き起こす可能性があるアクションを説明するアノテーションパイプラインを提案します。これらのオーディオの自由形式の説明をクラスにグループ化して、オーディオのみで区別できるアクションを識別します。オブジェクトが衝突するアクションの場合は、オブジェクトの材質(たとえば、ガラスオブジェクトを木の表面に置くこと)に対する人のコメントを収集し、ビデオで検証してあいまいさを取り除きます。全体的に、EPIC-SOUNDSは、44のクラスに分布する78.4kの分類された可聴イベントとアクションセグメントと39.2kの未分類のセグメントを含みます。オーディオのみおよびオーディオビジュアル方法の両方について、データセット内の最先端のオーディオ認識と検出モデルをトレーニングして評価します。また、オーディオイベント間の時間的冗長性、オーディオモードとビジュアルモード間の時間的およびラベルの相関、オーディオのみの入力におけるマテリアルアノテーションの曖昧さ、オーディオのみのラベルの重要性、およびサウンドを理解する現在のモデルの限界を分析します。

Takeaways、Limitations

Takeaways:
大規模で高セントリックなオーディオデータセットEPIC-SOUNDSを提供し、オーディオ認識と検出モデルの研究に貢献
オーディオのみで区別可能なアクションを識別し、オブジェクトの材料情報まで含む詳細なコメントを提供します。
オーディオビジュアル方法を含むさまざまなモデルの評価と分析により、オーディオ理解モデルのパフォーマンスと制限を分析できます。
オーディオイベントの時間的特徴、オーディオビジュアルモダリティ間の相関関係などの詳細な分析を提供します。
Limitations:
オーディオのみの入力からのマテリアルアノテーションに曖昧性があります。
現在のモデルが特定のサウンドを理解するのに限界を示しています。
分類されていないセグメント(39.2k)が多数存在し、データ利用に制約がある可能性がある。
👍