본 논문은 생성된 오디오 신호 평가에 널리 사용되는 Frechet Audio Distance (FAD)의 한계점(가우시안 가정 의존, 표본 크기 민감성, 높은 계산 복잡도)을 지적하고, 이를 대체하는 새로운 지표인 Kernel Audio Distance (KAD)를 제안한다. KAD는 Maximum Mean Discrepancy (MMD) 기반의 분포-자유, 불편향, 계산 효율적인 지표로, 소량의 데이터로도 신뢰할 수 있는 평가를 가능하게 하는 빠른 수렴, GPU 가속을 통한 낮은 계산 비용, 그리고 인간의 지각 판단과의 높은 일치성을 특징으로 한다. 고급 임베딩과 특징 커널을 활용하여 실제 및 생성된 오디오 간의 미묘한 차이를 포착하며, kadtk 툴킷으로 공개되어 효율적이고 신뢰할 수 있으며 지각적으로 일치하는 생성 오디오 모델 평가 벤치마크를 제공한다.