본 논문은 개인 맞춤형 비디오 대규모 언어 모델(ViLLM)인 PVChat을 제안합니다. 기존 ViLLM은 "Wilson이 항암 치료를 받고 있다"와 같이 특정 인물에 대한 이해가 부족한 한계를 가지는데, PVChat은 단 하나의 비디오만으로 특정 인물에 대한 질의응답(QA)이 가능하도록 설계되었습니다. 이는 혼합 헤드(MoH)를 강화한 ViLLM을 합성적으로 확장된 비디오-QA 데이터셋으로 학습시키는 방식을 사용합니다. 이를 위해 개인 식별 정보를 유지하는 양성 샘플을 합성하고 기존 비디오 자료에서 어려운 음성 샘플을 검색하는 자동 증강 파이프라인을 도입하여 존재, 외모, 행동, 위치 질문 등 다양한 유형의 QA 데이터를 생성합니다. 또한, ReLU 라우팅 MoH 어텐션 메커니즘과 두 가지 새로운 목적 함수(Smooth Proximity Regularization, Head Activation Enhancement)를 제안하여 개인 특징 학습을 향상시켰습니다. 이미지 사전 학습에서 비디오 미세 조정으로 이어지는 2단계 학습 전략을 통해 정적 속성에서 동적 표현으로의 점진적 학습을 가능하게 합니다. 의료 시나리오, TV 시리즈, 애니메이션, 실제 영상 등 다양한 데이터셋에서 기존 최고 성능 ViLLM보다 우수한 성능을 보입니다.