본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 크기 증가에 따른 장기 텍스트 처리 성능 향상에도 불구하고, 대화 라운드가 지속될수록 GPU 메모리에 많은 양의 KV 캐시 저장이 필요하여 모델 서빙 시스템의 효율성 및 가용성에 심각한 영향을 미치는 문제를 다룹니다. 실제 사용자의 대화 데이터를 라운드 단위로 분석하여 LLM 추론에서 임계층(watershed layer)을 발견하고, 이후 라운드 수준의 어텐션 분포가 유사함을 확인했습니다. 이를 바탕으로, 임계층의 어텐션 매트릭스를 통해 동적으로 k 값을 결정하여 상위 k개의 관련 라운드의 KV 캐시만 선택적으로 처리하는 새로운 라운드 수준 어텐션 메커니즘인 Round Attention을 제안합니다. 이론적 분석에 따르면 메모리 사용량을 54%~82%까지 줄일 수 있으며, 실험 결과는 중요 라운드의 KV 캐시를 스파스하게 로딩하는 것이 성능 저하 없이 정확도를 유지함을 보여줍니다.