Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs

Created by
  • Haebom

저자

Jinwoo Park, Seunggeun Cho, Dongsu Han

개요

본 논문은 대규모 언어 모델(LLM) 추론의 비용 효율성을 높이기 위한 에지 지원 추론 프레임워크인 SpecEdge를 제안합니다. SpecEdge는 추측적 디코딩 기법을 사용하여 LLM 작업 부하를 에지 및 서버 GPU에 분산하고, 네트워크를 통해 토큰 출력만 교환합니다. 선제적 에지 초안 작성을 통해 에지 토큰 생성과 서버 검증을 겹치게 하고, 파이프라인 인식 스케줄링을 통해 여러 사용자 요청을 섞어 서버 측 처리량을 높입니다. 실험 결과, SpecEdge는 서버 처리량을 2.22배 향상시켜 전반적인 비용 효율성을 1.91배 높이고, 토큰 간 지연 시간을 11.24% 줄이는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM 추론의 비용 효율성을 크게 향상시키는 새로운 접근 방식 제시.
에지 컴퓨팅을 활용하여 서버 부하 감소 및 처리량 증가 달성.
추측적 디코딩과 파이프라인 인식 스케줄링을 통해 지연 시간 단축.
확장 가능하고 비용 효과적인 LLM 서비스 패러다임 제시.
한계점:
SpecEdge의 성능 향상은 특정 실험 환경에 기반한 결과일 수 있음. 다양한 환경에서의 일반화 가능성에 대한 추가 연구 필요.
에지 디바이스의 성능 및 네트워크 대역폭에 대한 의존도가 높을 수 있음. 다양한 에지 디바이스 및 네트워크 조건에 대한 성능 평가 필요.
추측적 디코딩으로 인한 오류 발생 가능성 및 그에 대한 보정 메커니즘에 대한 추가적인 연구 필요.
👍