실시간 웹 애플리케이션에서 대규모 언어 모델 (LLM)을 통합하는 것은 고품질의 복잡한 추론과 낮은 지연 시간 및 높은 처리량 요구 사항을 일치시키는 근본적인 웹 인프라 문제를 제기합니다. 기존 LLM 추론은 계산 비효율적인 순차적 생성 및 경직된 추론 전략으로 인해 웹 서비스에 병목 현상을 초래합니다. 본 논문에서는 종속성 인지 질의 분해 및 논리적 병렬 콘텐츠 확장을 가능하게 하는 효율적인 추론 프레임워크인 Orion을 제안합니다. Orion은 질의 추론 프로세스를 두 단계로 분해합니다. (1) 검색 증강 소수 샷 프롬프팅을 통해 논리적으로 구조화된 핵심 포인트를 추출하는 핵심 포인트 생성, (2) 논리적 일관성을 보장하기 위해 종속성 그래프를 기반으로 이러한 포인트를 동시에 상세하게 설명하는 콘텐츠 병렬 확장. 또한, Orion은 두 단계의 상호 보완적인 계산 특성을 활용하여 여러 질의에 걸쳐 교차 질의 병렬 처리를 가능하게 하는 파이프라인 스케줄링 메커니즘을 도입하여 추론 성능(효율성 및 품질)을 향상시킵니다.