[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Epic-Sounds : un ensemble de données à grande échelle d'actions sonores

Created by
  • Haebom

Auteur

Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman

Contour

EPIC-SOUNDS est un jeu de données d'annotation audio à grande échelle qui capture la plage temporelle et les étiquettes de classe dans les flux audio de vidéos égocentriques. Les annotateurs attribuent des étiquettes temporelles à des segments audio distincts et proposent un pipeline d'annotation décrivant les actions susceptibles d'avoir généré le son. Nous regroupons ces descriptions audio libres en classes afin d'identifier les actions distinctes de l'audio seul. Pour les actions impliquant des collisions entre objets, nous collectons des annotations humaines sur le matériau de l'objet (par exemple, placer un objet en verre sur une surface en bois) et les vérifions dans la vidéo afin de lever toute ambiguïté. Au total, EPIC-SOUNDS contient 78,4 000 segments d'événements et d'actions audibles classifiés et 39,2 000 segments non classifiés répartis en 44 classes. Nous entraînons et évaluons des modèles de reconnaissance et de détection audio de pointe sur ce jeu de données, tant pour les méthodes audio que pour les méthodes audiovisuelles. Nous analysons également le chevauchement temporel entre les événements audio, la corrélation temporelle et d'étiquettes entre les modes audio et visuel, l'ambiguïté dans les annotations matérielles provenant d'entrées audio uniquement, l'importance des étiquettes audio uniquement et les limites des modèles actuels pour comprendre le son.

Takeaways, Limitations

Takeaways:
Contribuer à la recherche sur les modèles de reconnaissance et de détection audio en fournissant un ensemble de données audio égocentriques à grande échelle, EPIC-SOUNDS.
Identifiez les actions qui peuvent être distinguées de l'audio seul et fournissez des annotations détaillées qui incluent même des informations sur le matériel de l'objet.
Analyse des performances et des limites des modèles de compréhension audio à travers diverses évaluations et analyses de modèles, y compris des méthodes audiovisuelles.
Fournit une analyse approfondie des caractéristiques temporelles des événements audio, des corrélations entre les modalités audiovisuelles, etc.
Limitations:
Il existe une ambiguïté dans les annotations matérielles provenant d'une entrée audio uniquement.
Le modèle actuel présente des limites dans la compréhension de certains sons.
Il existe un nombre important de segments non classés (39,2 000), ce qui peut limiter l’utilisation des données.
👍