본 논문은 Kolmogorov-Arnold Networks (KANs)의 실용적인 적용을 가로막는 낮은 GPU 활용도 문제를 해결하기 위해, KAN 및 그 변형의 첫 번째 오픈소스 구현체인 GPU 가속 연산 라이브러리 PolyKAN을 제시한다. PolyKAN은 다항식 KAN 레이어의 순방향 및 역방향 패스를 최적화된 CUDA 커널 세트로 융합한다. 이 설계는 룩업 테이블, 2D 타일링, 2단계 감소, 계수 레이아웃 재정렬 등 4가지 기술을 기반으로 한다. Chebyshev KAN을 사례 연구로 사용하여 PolyKAN은 음성, 오디오 향상 및 표 형식 회귀 작업에서 Triton + cuBLAS 기반보다 최대 10배 빠른 추론과 최대 12배 빠른 훈련 속도를 제공하며, 정확도는 동일하다.