Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient Knowledge Graph Construction and Retrieval from Unstructured Text for Large-Scale RAG Systems

Created by
  • Haebom

저자

Congmin Min, Rhea Mathew, Joyce Pan, Sahil Bansal, Abbas Keshavarzi, Amar Viswanathan Kannan

개요

본 논문은 기업 환경에서 Graph-based Retrieval Augmented Generation (GraphRAG)을 확장 가능하고 비용 효율적으로 배포하기 위한 프레임워크를 제안합니다. 기존 GraphRAG는 높은 계산 비용과 지연 시간으로 인해 채택에 제한이 있었는데, 본 논문에서는 (1) 대규모 언어 모델(LLM)에 의존하지 않고 산업 수준의 NLP 라이브러리를 활용하여 비정형 텍스트에서 엔티티와 관계를 추출하는 의존성 기반 지식 그래프 구축 파이프라인과 (2) 하이브리드 쿼리 노드 식별 및 효율적인 1단계 트래버셜을 결합하여 높은 재현율과 낮은 지연 시간으로 부분 그래프를 추출하는 경량화된 그래프 검색 전략이라는 두 가지 핵심 혁신을 제시합니다. SAP 데이터셋을 사용한 실험 결과, 기존 RAG 기준 모델보다 최대 15% (LLM-as-Judge) 및 4.35% (RAGAS) 향상된 성능을 보였으며, LLM 기반 지식 그래프의 94% 수준의 성능(61.87% vs. 65.83%)을 달성하면서 비용을 크게 절감하고 확장성을 향상시켰습니다. 이를 통해 실용적이고 설명 가능하며 도메인에 적응 가능한 Retrieval-Augmented Reasoning 시스템의 실현 가능성을 입증합니다.

시사점, 한계점

시사점:
LLM에 대한 의존도를 줄이고 비용 효율적인 GraphRAG 구축 및 배포 가능성 제시.
산업 수준의 NLP 라이브러리를 활용한 효율적인 지식 그래프 구축 파이프라인 제안.
경량화된 그래프 검색 전략을 통해 높은 성능과 낮은 지연 시간 달성.
실제 대규모 기업 환경에서 GraphRAG 적용 가능성을 입증.
설명 가능하고 도메인에 적응 가능한 Retrieval-Augmented Reasoning 시스템 개발 가능성 제시.
한계점:
제안된 프레임워크의 성능은 특정 SAP 데이터셋에 대한 평가 결과에 기반하며, 다른 도메인이나 데이터셋으로의 일반화 가능성에 대한 추가 연구 필요.
의존성 기반 지식 그래프 구축 방식이 LLM 기반 방식보다 성능이 다소 낮은 점(61.87% vs 65.83%). 성능 차이를 더 줄일 수 있는 방안 모색 필요.
1단계 트래버셜 기반의 검색 전략으로 인해 다단계 추론이 필요한 복잡한 질문에 대한 성능 저하 가능성 존재. 다단계 추론 성능 향상 방안 연구 필요.
👍