Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs

Created by
  • Haebom
Category
Empty

저자

Jinwoo Park, Seunggeun Cho, Dongsu Han

개요

본 논문은 대규모 언어 모델(LLM)을 효율적으로 서비스하기 위한 엣지 기반 추론 프레임워크인 SpecEdge를 소개합니다. SpecEdge는 추측적 디코딩 방식을 활용하여 엣지 및 서버 GPU 간에 LLM 작업을 분할하고, 토큰 출력을 네트워크를 통해 교환합니다. SpecEdge는 사전 엣지 드래프팅을 통해 엣지 토큰 생성과 서버 검증을 중첩시키고, 파이프라인 인식 스케줄링을 통해 여러 사용자 요청을 인터리빙하여 서버 측 처리량을 증가시킵니다. 실험 결과, SpecEdge는 서버 처리량을 2.22배 향상시켜 전체 비용 효율성을 1.91배 개선하고, 토큰 간 지연 시간을 11.24% 감소시켰습니다.

시사점, 한계점

시사점:
엣지-서버 간 작업 분할을 통한 LLM 서비스 비용 효율성 향상
추측적 디코딩 및 파이프라인 인식 스케줄링을 활용한 성능 개선
소비자용 GPU를 활용하여 확장 가능한 LLM 서비스 패러다임 제시
한계점:
네트워크 대역폭 및 엣지 장치의 성능에 의존적일 수 있음
엣지 장치에서의 초기 모델 배포 및 관리에 대한 고려 필요
실험 결과가 특정 하드웨어 환경에 국한될 수 있음
👍