HOLA는 엣지 디바이스에서 대규모 언어 모델(LLM)을 효율적으로 배포하기 위한 엔드 투 엔드 최적화 프레임워크입니다. HOLA는 Hierarchical Speculative Decoding (HSD)을 사용하여 품질 저하 없이 더 빠른 추론을 가능하게 하고, AdaComp-RAG를 통해 상황에 맞는 검색 복잡성을 조정하며, 구조적 가지치기 (LoRA) 및 양자화를 결합한 LoBi를 활용하여 성능을 향상시킵니다. 그 결과, GSM8K에서 17.6%의 EMA, ARC에서 10.5%의 MCA 향상, Jetson Nano와 같은 엣지 디바이스에서 대기 시간 및 메모리 사용량 감소를 달성했습니다.