본 논문은 대규모 언어 모델 추론의 처리량을 개선하기 위해 사전 채우기(P) 단계와 디코딩(D) 단계를 분리하는 분산 추론 프레임워크의 효율성을 높이는 새로운 방법인 FlowKV를 제안합니다. 기존의 분산 추론 프레임워크는 KV 캐시 전송 지연, 블록 단위 호출 방식, 불연속적인 KV 캐시 메모리 할당, 고정적인 P/D 노드 역할 분담으로 인해 성능 저하를 겪습니다. FlowKV는 부하 인식 스케줄러를 도입하여 균형 잡힌 요청 스케줄링과 유연한 PD 노드 할당을 가능하게 함으로써 KV 캐시 전송 지연을 96% 감소시키고(0.944초에서 0.053초로), 하드웨어 자원 활용을 극대화하여 다양한 상황(정상, 계산 불균형, 과부하)에서 시스템 처리량을 최대화합니다. LongBench 데이터셋을 기반으로 한 실험 결과, FlowKV는 기준 모델 대비 15.2%~48.9%의 추론 속도 향상을 보였으며 이종 GPU를 사용하는 애플리케이션도 지원합니다.