본 논문은 네트워크 에지에서 대규모 언어 모델(LLM) 추론을 효율적으로 수행하기 위한 새로운 분산 추론 프레임워크인 FlowSpec을 제안합니다. 기존 파이프라인 기반 접근 방식의 단점인 희소한 추론 요청 시 낮은 파이프라인 활용률 문제를 해결하기 위해, FlowSpec은 점수 기반 단계적 검증, 효율적인 초안 관리, 동적 초안 확장 전략이라는 세 가지 주요 메커니즘을 통합한 파이프라인 병렬 트리 기반 추측적 디코딩 프레임워크를 제시합니다. 실제 테스트 환경에서의 평가 결과, FlowSpec은 다양한 모델과 구성에서 기존 방식 대비 1.28배에서 1.79배의 속도 향상을 달성했습니다.