Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PVChat : Chat vidéo personnalisé avec apprentissage instantané

Created by
  • Haebom

Auteur

Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Chen, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo

Contour

Dans cet article, nous proposons PVChat, un modèle de langage vidéo à grande échelle (ViLLM) personnalisé. Partant du constat que les ViLLM existants sont performants pour la compréhension générale des vidéos, mais peinent à comprendre des individus spécifiques (par exemple, « Wilson suit une chimiothérapie »), nous présentons un cadre permettant la réponse aux questions (QA) personnalisée à partir d'une seule vidéo. PVChat optimise ViLLM avec une amélioration de la tête mixte (MoH) sur des jeux de données vidéo-QA augmentés synthétiquement, en utilisant une stratégie d'apprentissage incrémental image-vidéo. Nous synthétisons des échantillons positifs préservant l'identité grâce à un pipeline d'augmentation de données et récupérons des échantillons négatifs difficiles à partir de corpus vidéo existants afin de générer divers jeux de données d'apprentissage. De plus, nous proposons un mécanisme d'attention MoH acheminé par ReLU et deux nouvelles fonctions objectives (régularisation de proximité fluide et amélioration de l'activation de la tête) pour améliorer l'apprentissage personnalisé des caractéristiques. Nous adoptons une stratégie d'apprentissage en deux étapes, du pré-apprentissage de l'image au réglage fin de la vidéo, permettant un processus d'apprentissage incrémental des attributs statiques aux représentations dynamiques. Nous évaluons PVChat sur une variété d'ensembles de données (scénarios médicaux, séries télévisées, animations et vidéos du monde réel) et démontrons sa supériorité sur le ViLLM de pointe existant dans la compréhension des fonctionnalités privées après l'apprentissage d'une seule vidéo.

Takeaways, Limitations

Takeaways:
Nous présentons PVChat, un nouveau framework ViLLM qui permet une compréhension vidéo personnalisée à partir d'une seule vidéo.
Apprentissage amélioré des caractéristiques individuelles via l'augmentation des données synthétiques et de nouveaux mécanismes d'attention et fonctions objectives.
Présentation de la possibilité d'analyse vidéo personnalisée dans divers domaines tels que la santé et la maison intelligente.
A contribué à résoudre le problème de la compréhension centrée sur la personne du ViLLM existant Limitations.
Limitations:
En raison de la forte dépendance aux données synthétiques, la vérification des performances de généralisation avec des données réelles est nécessaire.
Une analyse plus approfondie du coût de calcul et de l’efficacité de la méthode proposée est nécessaire.
Des recherches supplémentaires sont nécessaires sur la polyvalence et l’extensibilité à une variété de personnages et de situations.
Une validation supplémentaire est nécessaire pour garantir la précision et la robustesse de l’identification d’individus spécifiques.
👍