GLM은 그래프 구조 지식을 기반으로 단계별 추론을 수행하는 대규모 언어 모델(LLM) 시스템입니다. 기존 시스템의 낮은 정확도, 과도한 토큰 사용량, 높은 지연 시간, 낮은 처리량 문제를 해결하기 위해, GLM은 다중 에이전트 아키텍처와 최적화된 LLM 서빙 아키텍처를 결합했습니다. GLM은 분류, 추론, 행동 생성, 그래프 검색을 위한 전문 에이전트로 추론을 분해하여 프롬프트 길이와 추론 반복 횟수를 줄이는 동시에 추론 품질을 유지하고, 정확도를 향상시키고 전체 토큰 소비를 줄입니다. 또한, 그래프 관련 KV-캐시 관리, 우선순위 기반 제거, 파이프라인 실행을 통해 추론 효율성을 개선하는 Graph-CoT 인식 LLM 추론 메커니즘을 도입했습니다.