딥 강화 학습은 최적에 가까운 시스템 컨트롤러를 생성하는 최첨단 방법 중 하나입니다. 그러나 딥 RL 알고리즘은 투명성이 부족한 딥 신경망을 학습시켜 컨트롤러가 규정을 준수하거나 신뢰를 확보해야 할 때 어려움을 겪습니다. 이를 해결하기 위해 지식 증류를 사용하여 학습된 동작을 인간이 읽을 수 있는 모델로 이전할 수 있습니다. 일반적으로 이는 원본 모델을 평균적으로 모방하는 단일 모델로 수행되지만, 더 동적인 상황에서는 어려움을 겪을 수 있습니다. 핵심적인 과제는 이 더 간단한 모델이 유연성과 복잡성 사이의 적절한 균형 또는 편향과 정확성 사이의 적절한 균형을 가져야 한다는 것입니다. 본 논문에서는 단순화된, 인간이 이해할 수 있는 모델이 작동할 수 있는 영역으로 상태 공간을 분할하는 새로운 모델 불가지론적 방법을 제안합니다. 본 논문에서는 Voronoi 분할을 사용하여 선형 모델이 원본 컨트롤러와 유사한 성능을 달성할 수 있는 영역을 찾습니다. 그리드월드 환경과 고전적인 제어 작업을 통해 접근 방식을 평가합니다. 제안된 국소적으로 특화된 선형 모델로의 증류가 설명 가능한 정책을 생성하며, 증류가 블랙박스 정책을 따라잡거나 심지어 약간 능가한다는 것을 관찰합니다.