Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits

Created by
  • Haebom

저자

Yeshwanth Venkatesha, Souvik Kundu, Priyadarshini Panda

개요

본 논문은 모바일 기기, 웨어러블 기기, 로봇 등 에지 디바이스에서 대규모 언어 모델(LLM)을 효율적으로 활용하기 위한 새로운 프레임워크를 제안합니다. 기존 클라우드 기반 LLM 활용의 높은 비용과 지연시간 문제를 해결하기 위해, 서버의 큰 타겟 모델과 에지 디바이스의 작은 드래프트 모델을 활용하는 추측적 에지-클라우드 디코딩 프레임워크를 제시합니다. 이 프레임워크는 타겟 모델의 조기 종료(early exit) 기법과 예측적 드래프팅을 통해 에지와 클라우드 간 병렬 처리를 향상시켜 지연 시간을 단축하고 비용을 절감합니다. NVIDIA Jetson Nano와 A100 GPU를 이용한 실험과 Unitree Go2 로봇에 대한 VLM 기반 제어 적용 결과를 통해 제안된 방법의 효율성을 검증합니다.

시사점, 한계점

시사점:
에지 디바이스에서 LLM 및 VLM 활용을 위한 효율적인 프레임워크 제시.
클라우드 기반 디코딩 대비 지연 시간 감소 및 비용 절감 효과 확인.
예측적 드래프팅을 통한 추가적인 성능 향상.
실제 로봇 제어 환경에서의 실용성 검증.
한계점:
특정 하드웨어(NVIDIA Jetson Nano, A100 GPU) 및 모델(Vicuna-68M, Llama2-7B)에 대한 실험 결과에 국한됨.
다양한 에지 디바이스 및 LLM에 대한 일반화 가능성에 대한 추가 연구 필요.
에지-클라우드 간 통신 오버헤드에 대한 고려 필요.
에러 처리 및 안정성에 대한 추가적인 연구 필요.
👍