본 논문은 AMD Versal ACAP 아키텍처를 위한 DPUV4E라는 새로운 디자인을 제시합니다. Versal ACAP의 AI Engine(AIE)을 활용하여 높은 계산 성능을 제공하지만 메모리 대역폭 제한으로 AIE 성능을 완전히 활용하지 못하는 문제를 해결하고자 합니다. 2PE(32.6 TOPS)부터 8PE(131.0 TOPS)까지 다양한 구성을 제공하며, Conv PE와 DWC PE라는 두 가지 계산 유닛을 설계하여 다양한 계산 패턴을 지원합니다. 데이터 재사용을 통해 대역폭 병목 현상을 완화하고, AIE를 비합성곱 연산에 활용하여 자원 오버헤드를 줄입니다. 50개 이상의 모델 실험 결과, 기존 FPGA 기반 DPU 디자인보다 8.6배 높은 TOPS/W를 달성하고, DSP 사용량은 95.8%, LUT 사용량은 44.7% 감소시켰으며, 지연 시간은 68.5% 단축시켰습니다. 종단 간 추론에서는 심층별 합성곱 모델의 처리량을 최대 2.2배, 표준 모델의 처리량을 최대 1.3배 향상시켰습니다.