Sign In

Scaling Graph Chain-of-Thought Reasoning: A Multi-Agent Framework with Efficient LLM Serving

Created by
  • Haebom
Category
Empty

저자

Chengying Huan, Ziheng Meng, Yongchao Liu, Zhengyi Yang, Yun Zhu, Yue Yun, Shipeng Li, Rong Gu, Xiabao Wu, Haitao Zhang, Chuntao Hong, Shaonan Ma, Guihai Chen, Chen Tian

개요

GLM은 그래프 구조 지식을 기반으로 단계별 추론을 수행하는 대규모 언어 모델(LLM) 시스템입니다. 기존 시스템의 낮은 정확도, 과도한 토큰 사용량, 높은 지연 시간, 낮은 처리량 문제를 해결하기 위해, GLM은 다중 에이전트 아키텍처와 최적화된 LLM 서빙 아키텍처를 결합했습니다. GLM은 분류, 추론, 행동 생성, 그래프 검색을 위한 전문 에이전트로 추론을 분해하여 프롬프트 길이와 추론 반복 횟수를 줄이는 동시에 추론 품질을 유지하고, 정확도를 향상시키고 전체 토큰 소비를 줄입니다. 또한, 그래프 관련 KV-캐시 관리, 우선순위 기반 제거, 파이프라인 실행을 통해 추론 효율성을 개선하는 Graph-CoT 인식 LLM 추론 메커니즘을 도입했습니다.

시사점, 한계점

시사점:
최대 38%까지 답변 정확도 향상.
최대 95.7%까지 토큰 비용 감소.
90.3% 지연 시간 감소.
최대 15.1배 높은 처리량 달성.
복잡한 실제 추론을 효율적으로 수행 가능.
한계점:
논문에서 구체적인 한계점 언급 없음. (Abstract 내용만으로는 파악 불가)
👍