본 논문은 강화학습(RL) 에이전트의 의사결정 과정을 설명하는 새로운 방법을 제시합니다. 기존의 설명 가능성 방법들은 단일 상태 또는 전체 경로에 초점을 맞춰 지역적이고 단계적인 통찰력만 제공하거나, 에피소드 수준의 개괄적인 요약에 의사결정을 귀속시키는 한계가 있습니다. 본 논문에서는 여러 결정에 걸쳐 에이전트 행동을 실제로 주도하는 반복적인 전략과 시간적으로 확장된 패턴을 포착하는 의미 있고 해석 가능한 행동 세그먼트에 행동을 귀속시키는 완전히 오프라인의 보상 없는 행동 발견 및 분할 프레임워크를 제안합니다. 상태-행동 시퀀스에서 일관된 행동 클러스터를 식별하고, 개별 행동을 이러한 클러스터에 귀속시켜 세분화된 행동 중심 설명을 제공합니다. 네 가지 다양한 오프라인 RL 환경에서의 평가를 통해 제안된 방법이 의미 있는 행동을 발견하고 충실도, 인간의 선호도, 클러스터 일관성 측면에서 경로 수준의 기준선보다 우수한 성능을 보임을 확인했습니다. 소스 코드는 공개적으로 제공됩니다.