Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PVChat : Chat vidéo personnalisé avec apprentissage instantané

Created by
  • Haebom

Auteur

Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yucheng Chen, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo

Contour

Dans cet article, nous proposons PVChat, un modèle de langage vidéo à grande échelle (ViLLM) personnalisé. Le ViLLM existant présente des limites pour comprendre des individus spécifiques, comme « Wilson suit une chimiothérapie », tandis que PVChat est conçu pour permettre l'apprentissage par questions-réponses (AQ) pour un individu spécifique avec une seule vidéo. Il utilise une méthode d'entraînement du ViLLM avec amélioration de la tête mixte (MoH) sur un jeu de données vidéo d'AQ synthétiquement étendu. À cette fin, nous introduisons un pipeline d'augmentation automatique qui synthétise des échantillons positifs conservant des informations d'identification personnelle et récupère des échantillons de parole difficiles à partir de données vidéo existantes, générant ainsi divers types de données d'AQ telles que des questions de présence, d'apparence, d'action et de localisation. De plus, nous proposons un mécanisme d'attention MoH acheminé par ReLU et deux nouvelles fonctions objectives (régularisation de proximité fluide, amélioration de l'activation de la tête) pour améliorer l'apprentissage des caractéristiques personnelles. Ce modèle permet un apprentissage incrémental des attributs statiques aux représentations dynamiques grâce à une stratégie d'apprentissage en deux étapes allant du pré-entraînement de l'image au réglage fin de la vidéo. Il surpasse l'état de l'art existant de ViLLM sur divers ensembles de données tels que des scénarios médicaux, des séries télévisées, des animations et des vidéos du monde réel.

Takeaways, Limitations

Takeaways:
Nous présentons PVChat, un ViLLM capable de compréhension vidéo personnalisée avec un apprentissage vidéo unique.
ÉLargissement des possibilités d'application dans divers domaines tels que le médical et la maison intelligente.
Améliorer les performances de ViLLM grâce à l'augmentation des données synthétiques et à de nouvelles stratégies d'apprentissage.
Capacité à répondre à une variété de questions tout en conservant des informations personnelles identifiables.
Limitations:
Il est nécessaire de vérifier les performances de généralisation des méthodes d’apprentissage qui s’appuient sur des données synthétiques.
Des recherches supplémentaires sont nécessaires sur la robustesse dans des situations complexes du monde réel.
Des analyses plus approfondies sont nécessaires pour déterminer la précision de l’identification d’individus spécifiques.
Il est nécessaire de prendre en compte l’impact du biais des ensembles de données sur les performances du modèle.
👍