Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Improving LLM Reasoning via Dependency-Aware Query Decomposition and Logic-Parallel Content Expansion

Created by
  • Haebom

저자

Xianjun Gao, Jianchun Liu, Hongli Xu, Liusheng Huang

개요

실시간 웹 애플리케이션에서 대규모 언어 모델 (LLM)을 통합하는 것은 고품질의 복잡한 추론과 낮은 지연 시간 및 높은 처리량 요구 사항을 일치시키는 근본적인 웹 인프라 문제를 제기합니다. 기존 LLM 추론은 계산 비효율적인 순차적 생성 및 경직된 추론 전략으로 인해 웹 서비스에 병목 현상을 초래합니다. 본 논문에서는 종속성 인지 질의 분해 및 논리적 병렬 콘텐츠 확장을 가능하게 하는 효율적인 추론 프레임워크인 Orion을 제안합니다. Orion은 질의 추론 프로세스를 두 단계로 분해합니다. (1) 검색 증강 소수 샷 프롬프팅을 통해 논리적으로 구조화된 핵심 포인트를 추출하는 핵심 포인트 생성, (2) 논리적 일관성을 보장하기 위해 종속성 그래프를 기반으로 이러한 포인트를 동시에 상세하게 설명하는 콘텐츠 병렬 확장. 또한, Orion은 두 단계의 상호 보완적인 계산 특성을 활용하여 여러 질의에 걸쳐 교차 질의 병렬 처리를 가능하게 하는 파이프라인 스케줄링 메커니즘을 도입하여 추론 성능(효율성 및 품질)을 향상시킵니다.

시사점, 한계점

최대 4.33배 빠른 토큰 생성 속도와 3.42배 낮은 답변 지연 시간을 보였습니다.
포인트 간의 종속성을 명시적으로 모델링하여 추론 품질을 최대 18.75% 향상시켰습니다.
GPU 컴퓨팅 및 메모리 사용을 효율적으로 관리하는 파이프라인 스케줄링 메커니즘을 제공합니다.
실시간 웹 애플리케이션에서 LLM의 효율적인 추론을 위한 새로운 프레임워크를 제시합니다.
구체적인 한계점은 논문에 명시되어 있지 않음.
👍