고차 텐서 분해는 엣지 배포를 위한 컴팩트한 딥 뉴럴 네트워크를 얻기 위해 널리 사용된다. 기존 연구는 정확도와 압축률과 같은 알고리즘적 장점에 주로 초점을 맞추었으나, 하드웨어 배포 효율성은 간과했다. 저자들은 수많은 곱셈-누산 연산(MAC) 횟수를 기반으로 수축 시퀀스를 최적화하여 계산 비용을 줄이려는 시도들이 실제 하드웨어 특성을 무시하여 실질적인 성능 저하를 야기한다고 지적한다. 이에, 수축 경로, 하드웨어 아키텍처 및 데이터 흐름 매핑은 밀접하게 결합되어 있으며, 실제 장치에서 배포 효율성을 극대화하기 위해 통합된 설계 공간 내에서 함께 최적화되어야 한다고 주장한다. 이 논문은 엣지 플랫폼에서 텐서화된 신경망의 효율적인 훈련 및 추론을 위해 이러한 차원을 통합된 설계 공간 내에서 통합하는 공동 탐색 프레임워크를 제안한다. 이 프레임워크는 지연 시간 중심의 탐색 목표를 공식화하고, 엔드투엔드 모델 효율성을 달성하기 위해 통합 설계 공간에서 전역적인 지연 시간 기반 탐색을 통해 해결한다. 최적화된 구성은 구성 가능한 FPGA 커널에서 구현되어, 밀집된 기반 모델에 비해 최대 4배 및 3.85배 더 낮은 추론 및 훈련 지연 시간을 달성한다.