본 논문은 오프라인 강화학습(RL) 데이터셋에서 각 클러스터 중심이 해당 궤적을 생성한 정책을 나타내는 궤적 클러스터링이라는 새로운 과제를 제시합니다. 오프라인 궤적 분포의 KL-divergence와 정책에 의해 유도된 분포의 혼합물 간의 관계를 활용하여 자연스러운 클러스터링 목표를 공식화합니다. 이를 해결하기 위해 Policy-Guided K-means (PG-Kmeans)와 Centroid-Attracted Autoencoder (CAAE)를 제안합니다. PG-Kmeans는 반복적으로 행동 복제(BC) 정책을 훈련하고 정책 생성 확률에 따라 궤적을 할당하는 반면, CAAE는 궤적의 잠재 표현을 특정 코드북 항목의 근처로 유도하여 클러스터링을 달성함으로써 VQ-VAE 프레임워크와 유사합니다. 이론적으로 PG-Kmeans의 유한 단계 수렴을 증명하고, 정책에 의해 유도된 충돌로 인해 여러 개의 동등하게 유효하지만 구조적으로 다른 클러스터링을 초래할 수 있는 최적 솔루션의 고유한 모호성이라는 오프라인 궤적 클러스터링의 주요 과제를 확인합니다. 실험적으로 널리 사용되는 D4RL 데이터셋과 사용자 정의 GridWorld 환경에서 제안된 방법을 검증합니다. 결과는 PG-Kmeans와 CAAE 모두 궤적을 의미있는 클러스터로 효과적으로 분할함을 보여줍니다. 이들은 오프라인 RL 및 그 이상의 광범위한 응용 분야를 가진 정책 기반 궤적 클러스터링을 위한 유망한 프레임워크를 제공합니다.