본 논문은 사용자의 다양한 관점을 반영하여 데이터셋을 여러 가지로 분할하는 개인화된 다중 클러스터링 기법을 제안합니다. 기존 CLIP 기반 접근 방식의 한계(대략적인 이미지-텍스트 정렬 및 사용자 관심사에 대한 깊이 있는 이해 부족)를 극복하기 위해, 다중 모달 대규모 언어 모델(MLLM)을 에이전트로 활용하여 관계 그래프를 탐색하여 사용자 관심사에 기반한 클러스터를 검색하는 에이전트 중심의 프레임워크를 제시합니다. MLLM의 고급 추론 메커니즘을 통해 사용자 정의 기준에 더욱 부합하는 클러스터를 얻을 수 있으며, MLLM으로 추출한 사용자 관심 기반 임베딩을 사용하여 관계 그래프를 구성하여 에이전트의 탐색 경로를 단축함으로써 계산 비용을 줄입니다. Card Order 및 Card Suits 벤치마크에서 각각 0.9667 및 0.9481의 NMI 점수를 달성하여 기존 최고 성능 모델보다 140% 이상 향상된 결과를 보였습니다.