Dans cet article, nous proposons PVChat, un modèle de langage vidéo à grande échelle (ViLLM) personnalisé. Le ViLLM existant présente des limites pour comprendre des individus spécifiques, comme « Wilson suit une chimiothérapie », tandis que PVChat est conçu pour permettre l'apprentissage par questions-réponses (AQ) pour un individu spécifique avec une seule vidéo. Il utilise une méthode d'entraînement du ViLLM avec amélioration de la tête mixte (MoH) sur un jeu de données vidéo d'AQ synthétiquement étendu. À cette fin, nous introduisons un pipeline d'augmentation automatique qui synthétise des échantillons positifs conservant des informations d'identification personnelle et récupère des échantillons de parole difficiles à partir de données vidéo existantes, générant ainsi divers types de données d'AQ telles que des questions de présence, d'apparence, d'action et de localisation. De plus, nous proposons un mécanisme d'attention MoH acheminé par ReLU et deux nouvelles fonctions objectives (régularisation de proximité fluide, amélioration de l'activation de la tête) pour améliorer l'apprentissage des caractéristiques personnelles. Ce modèle permet un apprentissage incrémental des attributs statiques aux représentations dynamiques grâce à une stratégie d'apprentissage en deux étapes allant du pré-entraînement de l'image au réglage fin de la vidéo. Il surpasse l'état de l'art existant de ViLLM sur divers ensembles de données tels que des scénarios médicaux, des séries télévisées, des animations et des vidéos du monde réel.