본 논문은 사용자 맞춤형 다중 클러스터링을 위해 다중 모달 대규모 언어 모델(MLLM) 기반 에이전트 중심 프레임워크를 제안합니다. 기존 CLIP 기반 접근 방식의 한계(coarse image-text alignment, 사용자 관심사에 대한 깊이 있는 이해 부족)를 극복하기 위해, MLLM을 활용하여 관계 그래프를 탐색하고 사용자 관심사에 기반한 클러스터를 검색합니다. MLLM의 고급 추론 메커니즘을 통해 사용자 정의 기준에 더욱 부합하는 클러스터를 생성하며, MLLM으로 추출한 사용자 관심사 기반 임베딩을 사용하여 관계 그래프를 구성함으로써 계산 비용을 줄입니다. 유사도 기반으로 약하게 연결된 에지를 필터링하여 에이전트의 탐색 경로를 단축합니다. Card Order 및 Card Suits 벤치마크에서 각각 0.9667 및 0.9481의 NMI 점수를 달성하여 기존 최고 성능 모델보다 140% 이상 향상된 성능을 보였습니다.