회전 등변 그래프 신경망(Rotation equivariant graph neural networks)은 공간 심층 학습 작업에서 최첨단 성능을 제공하지만, Clebsch-Gordon (CG) 텐서 곱 연산의 비효율성이 병목 현상을 일으킨다. 본 논문은 GPU 기반의 sparse kernel generator를 제시하여 CG 텐서 곱 연산을 최적화한다. 이는 모델 컴파일 시점의 정적 분석을 통해 GPU 공유 메모리를 효율적으로 관리하고, 텐서 곱을 작은 커널로 분할하여 레지스터 내 연산을 가능하게 함으로써 instruction-level parallelism을 극대화한다. 또한, CG 텐서 곱과 그래프 컨볼루션을 융합하여 중간 저장소 및 글로벌 메모리 트래픽을 줄이고, CG 텐서 곱의 기울기 및 고차 편미분을 위한 최적화된 커널을 제공한다. 결과적으로 NVIDIA의 cuEquivariance 패키지보다 최대 1.3배, e3nn 패키지보다 최대 10배 빠른 속도를 달성하며, MACE 화학 기초 모델의 추론 시간을 최대 6.2배 단축시킨다.