En este artículo, proponemos PVChat, un modelo de lenguaje a gran escala (ViLLM) de video personalizado. El ViLLM existente presenta limitaciones para comprender individuos específicos, como "Wilson se somete a quimioterapia", mientras que PVChat está diseñado para permitir preguntas y respuestas (QA) para un individuo específico con un solo video. Utiliza un método de entrenamiento de ViLLM con mejora de cabeza mixta (MoH) en un conjunto de datos de video-QA extendido sintéticamente. Para ello, introducimos una secuencia de aumento automático que sintetiza muestras positivas que conservan información de identificación personal y recupera muestras de habla complejas de los datos de video existentes, generando diversos tipos de datos de QA, como preguntas de presencia, apariencia, acción y ubicación. Además, proponemos un mecanismo de atención de MoH enrutado por ReLU y dos nuevas funciones objetivo (Regularización de Proximidad Suave, Mejora de Activación de Cabeza) para mejorar el aprendizaje de características personales. Permite el aprendizaje incremental desde atributos estáticos hasta representaciones dinámicas mediante una estrategia de aprendizaje en dos etapas que abarca desde el preentrenamiento de la imagen hasta el ajuste fino del video. Supera al ViLLM de última generación existente en varios conjuntos de datos, como escenarios médicos, series de televisión, animaciones y videos del mundo real.