Dans cet article, nous proposons PVChat, un modèle de langage vidéo à grande échelle (ViLLM) personnalisé. Partant du constat que les ViLLM existants sont performants pour la compréhension générale des vidéos, mais peinent à comprendre des individus spécifiques (par exemple, « Wilson suit une chimiothérapie »), nous présentons un cadre permettant la réponse aux questions (QA) personnalisée à partir d'une seule vidéo. PVChat optimise ViLLM avec une amélioration de la tête mixte (MoH) sur des jeux de données vidéo-QA augmentés synthétiquement, en utilisant une stratégie d'apprentissage incrémental image-vidéo. Nous synthétisons des échantillons positifs préservant l'identité grâce à un pipeline d'augmentation de données et récupérons des échantillons négatifs difficiles à partir de corpus vidéo existants afin de générer divers jeux de données d'apprentissage. De plus, nous proposons un mécanisme d'attention MoH acheminé par ReLU et deux nouvelles fonctions objectives (régularisation de proximité fluide et amélioration de l'activation de la tête) pour améliorer l'apprentissage personnalisé des caractéristiques. Nous adoptons une stratégie d'apprentissage en deux étapes, du pré-apprentissage de l'image au réglage fin de la vidéo, permettant un processus d'apprentissage incrémental des attributs statiques aux représentations dynamiques. Nous évaluons PVChat sur une variété d'ensembles de données (scénarios médicaux, séries télévisées, animations et vidéos du monde réel) et démontrons sa supériorité sur le ViLLM de pointe existant dans la compréhension des fonctionnalités privées après l'apprentissage d'une seule vidéo.