본 논문은 시각-언어 모델(VLM)을 개인화된 어시스턴트로 발전시키기 위한 혁신적인 프레임워크인 Jarvis를 소개한다. Jarvis는 사용자 특정 정보를 텍스트 및 시각 토큰의 KV-캐시에 저장하는 개인화된 KV-캐시 검색을 통해 작동한다. 텍스트 토큰은 사용자 정보를 요약하여 생성되고, 시각 토큰은 사용자 이미지에서 개별 이미지 패치를 추출하여 생성된다. 질문에 답변할 때 Jarvis는 먼저 개인 저장소에서 관련 KV-캐시를 검색하여 정확한 답변을 보장한다. 또한, Jarvis는 세분화된 사용자 특정 정보에 기반한 정확한 질문 응답을 강조하는 세분화된 벤치마크를 제시한다. Jarvis는 특정 로컬 디테일에 의존하는 답변에서 특히 더 정확한 결과를 제공하며, 여러 데이터셋에서 시각 질문 응답 및 텍스트 기반 작업 모두에서 최첨단 성능을 달성했다.