본 논문은 모바일 운영체제에서 대규모 언어 모델(LLM)의 배포 시 발생하는 성능 저하 문제를 해결하기 위해, 장치-클라우드 시너지 LLM 서비스 시스템인 Synera를 제안한다. Synera는 효율적인 SLM-LLM 시너지 메커니즘을 적용하여 통신 병목 현상을 완화하고, 생성 품질 저하를 방지한다. 구체적으로, 통신 효율적인 선택적 오프로딩, 스톨 없는 병렬 추론, 확장 가능한 클라우드 배치 처리를 통해 성능을 향상시킨다. 실험 결과, Synera는 경쟁 기반 대비 1.20-5.47배 높은 생성 품질을 제공하며, 클라우드 비용을 8.2-16.5% 절감하는 효과를 보였다.