본 논문은 개인 맞춤형 비디오 거대 언어 모델(ViLLM)인 PVChat을 제안합니다. 기존 ViLLM들이 개별 인물을 인식하는 데 어려움을 겪는 문제를 해결하기 위해, PVChat은 단 하나의 비디오만으로 개인 중심 질의응답(QA)을 가능하게 합니다. 이는 합성적으로 증강된 비디오-QA 데이터셋을 사용하여 혼합 헤드(MoH) 기반 ViLLM을 최적화하는 일중 학습 프레임워크를 통해 구현됩니다. 특히, 개인 식별을 유지하는 양성 샘플을 합성하고 기존 비디오 자료에서 어려운 음성 샘플을 검색하는 자동 증강 파이프라인을 도입하여 다양한 훈련 데이터셋을 생성합니다. 또한, ReLU 라우팅 MoH 어텐션 메커니즘과 두 가지 새로운 목적 함수(Smooth Proximity Regularization, Head Activation Enhancement)를 제안하여 개인 특징 학습을 향상시키고, 이미지 사전 훈련에서 비디오 미세 조정으로 전환하는 2단계 훈련 전략을 채택합니다. 의료 시나리오, TV 시리즈, 애니메이션, 실제 영상 등 다양한 데이터셋에서 평가 결과, 기존 최첨단 ViLLM에 비해 단일 비디오 학습 후 개인 특징 이해 능력이 뛰어남을 보여줍니다.