본 논문은 딥 뉴럴 네트워크(DNN) 모델의 자원 요구 사항으로 인한 성능 문제를 해결하기 위해, CPU-GPU 하이브리드 추론 프레임워크인 SparOA를 제안합니다. SparOA는 희소성(sparsity)과 계산 집약도를 활용하여 연산자 스케줄링을 최적화합니다. SparOA는 (1) 최적의 희소성 및 계산 집약도 임계값을 결정하는 임계값 예측기, (2) 실시간 하드웨어 상태에 따라 자원 할당을 동적으로 최적화하는 강화 학습 기반 스케줄러, (3) 비동기 실행 및 배치 크기 최적화를 통해 효율성을 향상시키는 하이브리드 추론 엔진의 세 가지 주요 구성 요소를 포함합니다. SparOA는 기존 방법 대비 평균 1.22-1.31배의 속도 향상을 달성했으며, CPU-Only 방식보다 최대 50.7배 더 빠릅니다. 또한, 최적의 에너지 효율성을 보이며, 최첨단 co-execution 방식보다 7%에서 16% 적은 에너지를 소비합니다.