본 논문은 생성형 인공지능(GenAI), 특히 대규모 언어 모델(LLM)의 클라우드 중심 배포 방식이 지닌 지연 시간, 비용, 개인 정보 보호 문제와 같은 중요한 한계점을 다룹니다. 자원 제약이 있는 에지 환경을 위한 대안으로 소규모 언어 모델(SLM)이 등장하고 있지만, SLM은 종종 LLM의 기능을 갖추지 못합니다. 따라서 본 논문에서는 에지와 클라우드 자원을 모두 활용하는 협업 추론 시스템의 잠재력을 탐구합니다. 다양한 협업 전략과 실용적인 설계 원칙, 실험적 통찰력을 제시하여 컴퓨팅 연속체 전반에 걸쳐 GenAI를 배포하기 위한 실행 가능한 지침을 제공합니다.