본 논문은 멀티턴 대화에서 대규모 언어 모델 (LLM)의 효율적인 추론을 위한 적응형 이중 위상 추론 가속 프레임워크인 LoopServe를 제시합니다. LoopServe는 동적 중요도 선택을 통한 온라인 희소화 (prefilling 단계)와 적응형 Key-Value 압축 (decoding 단계)을 도입하여 대화의 맥락을 효율적으로 관리합니다. 또한, 현실적인 질의 위치와 대화 종속성을 반영하는 11개의 멀티턴 데이터셋으로 구성된 새로운 벤치마크를 제안하며, LoopServe가 기존 방법론보다 뛰어난 성능과 가속 효과를 보임을 실험적으로 입증합니다.