[논문 리뷰] From Local to Global: A Graph RAG Approach to Query-Focused Summarization
안녕하세요! 오늘은 2024년 4월에 공개된 RAG 및 요약 관련 논문을 소개드리고자 합니다! 소개드리는 논문은 기존의 텍스트 요약 모델과 차별화된 접근 방식을 통해 대규모 데이터셋에서도 효율적이고 포괄적인 질의 중심 요약을 가능하게 하는 Graph RAG 입니다. 이 연구는 대규모 데이터셋 전반의 주제나 관계를 요약하는 데 강점을 보입니다. 특히, Retrieval-Augmented Generation(RAG)과 그래프 이론의 결합을 통해 텍스트 데이터를 커뮤니티 단위로 요약하고, 이를 바탕으로 심층적이고 다각적인 응답을 제공할 수 있다는 점에서 학술 및 비즈니스 인텔리전스 분야의 데이터 분석에 혁신적인 영향을 미칠 것으로 기대됩니다. Microsoft에서 작성하여 대규모 데이터 분석의 효율성과 인터랙티브한 인사이트 제공 측면에서 향후 더 큰 영향력을 발휘할 것으로 예상됩니다. Abstract 논문은 기존 RAG(Retrieval-Augmented Generation) 방식이 대규모 텍스트 코퍼스 전체에 대한 글로벌 질문을 해결하는 데 한계를 보인다고 지적합니다. 예를 들어, "데이터셋의 주요 주제는 무엇인가?"와 같은 질문은 개별적인 정보 검색이 아니라 질문에 맞춰 요약을 수행하는 작업(QFS, Query-Focused Summarization)을 요구하기 때문에, 기존 RAG의 접근 방식으로는 이러한 질문에 적합한 답변을 제공하기 어렵습니다. 기존의 QFS 접근 방식도 대규모 텍스트를 다루기에는 한계가 있었기 때문에, 이 논문에서는 이러한 문제를 해결할 수 있는 Graph RAG 방식을 제안합니다. Graph RAG는 엔티티 지식 그래프(Entity Knowledge Graph)를 기반으로, 데이터셋 내의 밀접하게 관련된 엔티티들을 커뮤니티로 그룹화하고, 각 커뮤니티에 대해 Community Summary를 사전 생성합니다. 사용자가 질문을 하면, 각 커뮤니티의 요약을 활용해 부분적인 응답을 생성한 뒤, 이를 최종적으로 통합하여 포괄적이고 일관된 답변을 제공합니다. 이 접근 방식은 기존 QFS와 달리 대규모 텍스트를 효과적으로 다룰 수 있다는 점에서 차별화됩니다. 특히, 대규모 데이터셋에서도 효율적인 글로벌 질문 처리가 가능하도록 설계되어, 전체 텍스트 코퍼스에서 중요한 주제나 패턴을 도출하는 데 유리합니다. Introduction 인간이 도메인 지식을 바탕으로 복잡한 의미를 이해하는 방식처럼, RAG(Retrieval-Augmented Generation)도 이러한 인간의 사고 과정을 적용하여 텍스트에서 정보를 추출하고자 합니다. 현재 LLM(Large Language Models)을 사용한 문서의 국소적 요약(Local summarization)은 비교적 간단해졌지만, 특정 질문에 맞춘 요약(Query-Focused Abstractive Summarization, QFS)에 대한 연구는 여전히 부족한 상황입니다. LLM은 긴 컨텍스트를 효과적으로 처리하는 데에 한계가 있습니다. 이 문제를 해결하기 위해, 본 연구에서는 사전 인덱싱을 통한 QFS 방식을 제안합니다. 이를 위해 LLM을 활용해 지식 그래프(Knowledge Graph)를 자동으로 구축하고, 그 그래프를 통해 전체 데이터셋을 요약하는 Graph RAG 접근 방식을 제시합니다. 이 과정에서 그래프 인덱스를 단순히 구조화하고, 검색하며, 노드 간의 연결을 탐색하는 것에 집중하지 않고, 대신 노드와 연관된 모듈화된 그룹을 탐지하고 분석하는 것에 중점을 둡니다. 이렇게 탐지된 그룹은 병렬로 요약이 수행되며, 각 부분적인 요약 결과를 다시 종합하여 최종적인 글로벌 요약을 제공합니다. 본 연구에서는 팟캐스트 전사본과 뉴스 기사 데이터를 활용하여, Graph RAG 접근 방식과 기존 방법들을 평가하였습니다. 그 결과, 제안된 방법이 더 포괄적이고 다양한 답변을 제공하며, 전체 데이터셋에 대한 질문에 더 효과적으로 답변할 수 있음을 보여줍니다. Graph RAG Approach & Pipeline 사전 용어 정리 Node: Entity와 동일하며 사람, 지명, 장소 등을 의미합니다.
- 레오레
1
7