소형 AI 모델의 실용적인 배포에 대한 연구. 특히, RTX 4060 GPU와 같은 소비자 등급 하드웨어에서 객체 감지기의 성능 병목 현상이 시스템 수준에 있음을 밝힘. 이를 해결하기 위해 아키텍처 변경 없이 적용 가능한 모델 독립적인 Two-Pass Adaptive Inference 알고리즘을 제안. 이 알고리즘은 빠른 저해상도 패스를 먼저 수행하고, 감지 신뢰도가 낮을 경우에만 고해상도 모델 패스로 전환. COCO 데이터셋에서 PyTorch Early-Exit baseline 대비 1.85배 속도 향상과 5.51%의 mAP 손실을 달성.