EPIC-SOUNDS est un jeu de données d'annotation audio à grande échelle qui capture la plage temporelle et les étiquettes de classe dans les flux audio de vidéos égocentriques. Les annotateurs attribuent des étiquettes temporelles à des segments audio distincts et proposent un pipeline d'annotation décrivant les actions susceptibles d'avoir généré le son. Nous regroupons ces descriptions audio libres en classes afin d'identifier les actions distinctes de l'audio seul. Pour les actions impliquant des collisions entre objets, nous collectons des annotations humaines sur le matériau de l'objet (par exemple, placer un objet en verre sur une surface en bois) et les vérifions dans la vidéo afin de lever toute ambiguïté. Au total, EPIC-SOUNDS contient 78,4 000 segments d'événements et d'actions audibles classifiés et 39,2 000 segments non classifiés répartis en 44 classes. Nous entraînons et évaluons des modèles de reconnaissance et de détection audio de pointe sur ce jeu de données, tant pour les méthodes audio que pour les méthodes audiovisuelles. Nous analysons également le chevauchement temporel entre les événements audio, la corrélation temporelle et d'étiquettes entre les modes audio et visuel, l'ambiguïté dans les annotations matérielles provenant d'entrées audio uniquement, l'importance des étiquettes audio uniquement et les limites des modèles actuels pour comprendre le son.