Kp
KPMG Lighthouse
Sign In

AI 요약 기술의 끝판왕? Graph RAG로 질문에 완벽히 답하다

작성자
  • L
    Lighthouse
작성시각
Sep 10, 2025 3:54 PM
카테고리
  1. Tech
Lighthouse AI 챕터에서는 AI 관련 신기술 및 각종 논문을 주간단위로 스터디하고 세미나를 진행합니다. 하기 내용은 From Local to Global: A Graph RAG Approach to Query-Focused Summarization 논문에 관한 스터디 내용을 요약하여 기술한 내용입니다. AI Chapter에 조인하시면 아래 내용들을 함께 연구개발하고 실무에 적용해보실수 있답니다!

Graph RAG: 새로운 시대의 질문 중심 요약 기술

기술의 발전은 우리가 정보를 처리하고 이해하는 방식을 끊임없이 변화시키고 있습니다. 특히, 대규모 언어 모델(LLM)의 등장으로 인해 텍스트 데이터를 요약하고 질문에 답변하는 방식은 혁신적인 변화를 맞이했습니다.
하지만 이러한 기술에도 한계는 존재합니다. 기존의 RAG(Retrieval-Augmented Generation) 시스템은 방대한 텍스트 코퍼스를 대상으로 하는 전역적 질문에는 충분히 효과적이지 못하며, 기존의 QFS(Query-Focused Summarization) 방법은 대량의 텍스트를 처리하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해 Microsoft Research 팀은 새로운 접근법인 Graph RAG를 제안했습니다.

기존 요약 기술의 한계

여러분은 방대한 뉴스 기사, 팟캐스트 대본, 또는 연구 논문을 대상으로 특정 질문에 대한 답변을 얻고자 합니다. 예를 들어, "지난 10년 동안 기후 변화에 대한 주요 논의는 무엇인가요?"라는 질문을 던졌다고 가정해봅시다.
기존의 RAG 시스템은 텍스트에서 정보를 검색하고 이를 기반으로 답변을 생성하는 데는 능숙하지만, 전체 코퍼스를 아우르는 전역적 질문에는 한계를 드러냅니다. 이는 RAG가 텍스트의 일부만을 처리하거나, 질문과 관련된 정보가 코퍼스 전체에 흩어져 있는 경우 충분히 포괄적인 답변을 생성하지 못하기 때문입니다.
또 다른 접근법인 QFS는 특정 질문에 초점을 맞춘 요약을 생성하는 데 강점을 가지고 있지만, 대량의 텍스트를 처리하는 데 있어 효율성이 떨어집니다. 결국, 우리는 포괄성과 효율성을 모두 갖춘 새로운 기술이 필요하다는 결론에 도달하게 됩니다.

Graph RAG의 탄생: 그래프 기반 접근법

Microsoft Research 팀은 이러한 문제를 해결하기 위해 Graph RAG라는 새로운 접근법을 개발했습니다. 이 기술은 기존 RAG와 QFS의 장점을 결합하여, 방대한 텍스트 데이터를 효과적으로 처리하면서도 전역적 질문에 대한 포괄적인 답변을 제공합니다.
Graph RAG의 핵심은 텍스트 데이터를 그래프 형태로 변환하는 데 있습니다. 텍스트에서 엔티티(예: 사람, 장소, 개념 등)를 식별하고, 이들 간의 관계를 그래프로 표현합니다. 이렇게 생성된 그래프는 노드(엔티티)와 엣지(관계)로 구성되며, 이를 기반으로 커뮤니티 탐지 알고리즘을 사용하여 밀접하게 연결된 엔티티 그룹을 형성합니다. 각 커뮤니티는 텍스트의 특정 부분을 대표하며, 이를 요약하여 커뮤니티 요약을 생성합니다.

커뮤니티 기반 요약의 마법

Graph RAG의 요약 과정은 마치 퍼즐을 맞추는 것과 같습니다. 먼저, 텍스트 데이터를 작은 청크로 나누고, 각 청크에서 엔티티와 관계를 추출합니다. 이를 통해 생성된 그래프는 커뮤니티 탐지 알고리즘을 통해 여러 그룹으로 분할됩니다. 예를 들어, 기후 변화에 대한 논의가 포함된 텍스트에서는 "탄소 배출", "재생 가능 에너지", "국제 협약"과 같은 주제를 대표하는 커뮤니티가 형성될 수 있습니다.
각 커뮤니티는 LLM을 사용해 요약되며, 이 요약은 해당 커뮤니티의 핵심 정보를 담고 있습니다. 이후, 질문이 주어지면 각 커뮤니티 요약을 기반으로 부분적인 답변을 생성하고, 이를 종합하여 최종적인 전역 답변을 제공합니다. 이 과정은 마치 여러 조각의 정보를 모아 하나의 완성된 그림을 만드는 것과 같습니다.

효율성과 정확성: Graph RAG의 장점

Graph RAG는 기존의 요약 기술에 비해 여러 가지 측면에서 뛰어난 성능을 보여줍니다.
1.
포괄성과 다양성: 그래프 기반 접근법은 텍스트 전체를 커버하며, 다양한 주제를 다룰 수 있습니다. 이는 전역적 질문에 대한 답변을 생성하는 데 있어 큰 강점으로 작용합니다.
2.
효율성: 커뮤니티 탐지와 요약 과정은 병렬적으로 처리될 수 있어, 대량의 데이터를 빠르게 처리할 수 있습니다. 특히, Graph RAG는 기존의 텍스트 요약 방식에 비해 훨씬 적은 토큰을 사용하면서도 높은 성능을 유지합니다.
3.
정확성: 그래프의 구조적 정보를 활용하여 더 정확한 답변을 생성할 수 있습니다. 이는 엔티티 간의 관계를 명확히 이해하고 이를 기반으로 답변을 생성하기 때문에 가능합니다.

실험과 결과: Graph RAG의 성능 검증

Microsoft Research 팀은 Graph RAG의 성능을 검증하기 위해 팟캐스트 대본과 뉴스 기사 데이터를 사용하여 실험을 진행했습니다. 이 데이터는 각각 수천 개의 노드와 엣지로 구성된 대규모 그래프로 변환되었습니다. 실험 결과, Graph RAG는 기존의 단순 RAG와 비교했을 때 포괄성(comprehensiveness)과 다양성(diversity) 측면에서 상당한 개선을 보여주었습니다.
예를 들어, 팟캐스트 데이터셋에서 Graph RAG는 기존 요약 방식에 비해 포괄성에서 57%, 다양성에서 57%의 향상을 기록했습니다.
뉴스 데이터셋에서도 유사한 결과가 나타났으며, 낮은 단계 요약(C3)은 64%의 포괄성과 60%의 다양성을 제공했습니다. 이러한 결과는 Graph RAG가 방대한 데이터셋을 처리하면서도 높은 품질의 답변을 생성할 수 있음을 입증합니다.

Graph RAG: 실무에서의 활용 가능성과 적용 사례

Graph RAG는 단순히 연구실에서 끝나는 기술이 아닙니다. 이 기술은 대규모 텍스트 데이터를 처리하고, 질문에 대한 포괄적이고 정확한 답변을 제공해야 하는 다양한 실무 분야에서 강력한 도구로 활용될 수 있습니다. 아래에서는 Graph RAG가 실무에 적용될 수 있는 주요 영역과 그 가능성을 구체적으로 살펴보겠습니다.

1. 기업 내 지식 관리 및 문서 검색 시스템

대기업이나 조직에서는 방대한 양의 문서, 보고서, 이메일, 기술 문서, 회의록 등이 매일 생성됩니다. 이러한 데이터는 조직의 중요한 자산이지만, 필요할 때 적절한 정보를 찾는 것은 매우 어려운 과제입니다.
•
적용 사례:
◦
Graph RAG를 활용하면 기업 내 모든 문서를 엔티티 기반 그래프로 변환하여, 특정 질문(예: "지난 분기 동안의 주요 프로젝트 성과는 무엇인가?")에 대한 포괄적이고 요약된 답변을 제공할 수 있습니다.
◦
팀 간 협업 시, 프로젝트 관련 문서를 빠르게 검색하고 요약된 정보를 제공하여 의사결정 속도를 높일 수 있습니다.
◦
법률 부서에서는 계약서나 법적 문서에서 특정 조항이나 이슈를 빠르게 요약하고 관련 정보를 제공받을 수 있습니다.
•
장점:
◦
기존의 단순 키워드 검색 시스템보다 더 정교하고 맥락에 맞는 답변 제공.
◦
문서 검색 및 요약에 소요되는 시간을 대폭 단축.

2. 헬스케어 및 의료 데이터 분석

의료 분야는 환자 기록, 연구 논문, 임상 시험 데이터 등 방대한 양의 텍스트 데이터를 포함하고 있습니다. 이 데이터를 효과적으로 분석하고 요약하는 것은 환자 치료와 연구에 매우 중요합니다.
•
적용 사례:
◦
환자 기록에서 특정 질병과 관련된 모든 정보를 요약하여 의료진에게 제공.
◦
임상 시험 데이터에서 특정 약물의 효과와 부작용에 대한 전반적인 요약 생성.
◦
의료 연구 논문에서 특정 주제(예: "암 치료에서 면역 요법의 최근 발전")에 대한 포괄적인 답변 제공.
•
장점:
◦
의료진이 환자 치료에 필요한 정보를 더 빠르게 얻을 수 있도록 지원.
◦
연구자들이 방대한 논문 데이터를 효율적으로 분석하고 새로운 통찰을 얻을 수 있는 도구 제공.

3. 법률 및 규제 준수 분야

법률 및 규제 준수 분야는 대량의 법률 문서, 판례, 규정 등을 다루며, 특정 질문에 대한 명확한 답변을 제공해야 하는 경우가 많습니다. Graph RAG는 이러한 분야에서 강력한 도구로 활용될 수 있습니다.
•
적용 사례:
◦
특정 법률 조항이나 규정에 대한 요약 및 관련 판례 검색.
◦
규제 준수 보고서를 작성하기 위해 관련 문서에서 핵심 정보를 추출.
◦
법률 상담 시, 고객의 질문에 대한 포괄적이고 정확한 답변 제공.
•
장점:
◦
법률 문서의 복잡성을 줄이고, 변호사나 법률 전문가가 더 빠르게 정보를 분석할 수 있도록 지원.
◦
규제 준수와 관련된 리스크를 줄이고, 기업의 법적 대응 속도를 높임.

4. 미디어 및 콘텐츠 요약

뉴스, 팟캐스트, 동영상 자막 등 미디어 콘텐츠는 매일 엄청난 양으로 생성됩니다. 이 데이터를 요약하고, 특정 주제에 대한 정보를 제공하는 것은 미디어 산업에서 중요한 과제입니다.
•
적용 사례:
◦
뉴스 아카이브에서 특정 주제(예: "기후 변화")에 대한 요약된 정보를 생성.
◦
팟캐스트 대본을 분석하여 에피소드별 주요 논의 내용을 요약.
◦
동영상 자막 데이터를 기반으로 특정 질문(예: "이 강연에서 가장 중요한 메시지는 무엇인가?")에 대한 답변 제공.
•
장점:
◦
독자나 청취자가 원하는 정보를 더 빠르게 얻을 수 있도록 지원.
◦
미디어 제작자가 콘텐츠를 더 효과적으로 분류하고 요약할 수 있는 도구 제공.

5. 교육 및 학습 도구

교육 분야에서는 학생들이 방대한 학습 자료를 효과적으로 이해하고, 특정 질문에 대한 답변을 얻는 것이 중요합니다. Graph RAG는 이러한 학습 과정을 지원할 수 있습니다.
•
적용 사례:
◦
교과서, 강의 노트, 연구 논문에서 특정 주제에 대한 요약된 정보를 제공.
◦
학생들이 질문을 입력하면 관련 학습 자료에서 답변을 생성.
◦
대규모 온라인 강의(MOOC)에서 강의 내용을 요약하고, 학생들의 질문에 대한 답변 제공.
•
장점:
◦
학생들이 학습 자료를 더 쉽게 이해하고, 학습 시간을 단축할 수 있도록 지원.
◦
교사들이 학생들의 질문에 더 효과적으로 답변할 수 있는 도구 제공.

6. 고객 서비스 및 챗봇

고객 서비스 분야에서는 고객의 질문에 빠르고 정확하게 답변하는 것이 중요합니다. Graph RAG는 고객 서비스 시스템에 통합되어 더 나은 사용자 경험을 제공할 수 있습니다.
•
적용 사례:
◦
고객이 입력한 질문에 대해 제품 매뉴얼, FAQ, 지원 문서에서 답변 생성.
◦
고객 서비스 상담원이 고객의 질문에 신속하게 답변할 수 있도록 관련 정보를 요약 제공.
◦
기술 지원 요청 시, 문제 해결에 필요한 정보를 문서에서 추출하여 제공.
•
장점:
◦
고객 서비스 응답 시간을 단축하고, 고객 만족도를 향상.
◦
챗봇의 답변 품질을 높여 더 자연스럽고 유용한 대화 제공.

7. 연구 및 데이터 분석

연구자들은 방대한 양의 논문, 데이터셋, 보고서를 분석하고, 특정 질문에 대한 답변을 얻는 데 많은 시간을 소비합니다. Graph RAG는 연구 과정을 효율화하는 데 큰 도움을 줄 수 있습니다.
•
적용 사례:
◦
특정 연구 주제(예: "인공지능의 윤리적 문제")에 대한 논문 요약 제공.
◦
데이터셋에서 특정 질문에 대한 답변 생성.
◦
연구 보고서를 작성하기 위해 관련 정보를 요약하고 구조화.
•
장점:
◦
연구자들이 더 빠르게 새로운 통찰을 얻고, 연구 결과를 도출할 수 있도록 지원.
◦
복잡한 데이터셋을 더 쉽게 이해하고 분석할 수 있는 도구 제공.

8. 정부 및 공공 서비스

정부 기관과 공공 서비스 조직은 정책 문서, 법률, 보고서 등 방대한 데이터를 다루며, 시민들에게 명확한 정보를 제공해야 합니다. Graph RAG는 이러한 데이터를 효과적으로 요약하고, 질문에 대한 답변을 생성하는 데 유용합니다.
•
적용 사례:
◦
정책 문서에서 특정 주제(예: "주택 정책")에 대한 요약 제공.
◦
시민들이 질문(예: "내 지역의 교통 계획은 무엇인가요?")에 대한 답변을 받을 수 있도록 지원.
◦
공공 데이터에서 특정 통계나 정보를 추출하여 제공.
•
장점:
◦
시민들에게 더 나은 정보 접근성을 제공하고, 정부의 투명성을 향상.
◦
공공 서비스 제공 속도와 품질을 개선.

Graph RAG의 실무적 가치

Graph RAG는 단순한 연구 프로젝트를 넘어, 다양한 실무 분야에서 강력한 도구로 자리 잡을 잠재력을 가지고 있습니다. 방대한 텍스트 데이터를 처리하고, 질문에 대한 포괄적이고 정확한 답변을 제공해야 하는 모든 영역에서 Graph RAG는 혁신적인 솔루션이 될 수 있습니다. 앞으로 이 기술이 실무에 어떻게 적용되고 발전해 나갈지 기대해봅시다.

한계와 미래 방향

물론 Graph RAG에도 한계는 존재합니다. 현재 평가 방식은 특정 데이터셋과 전역적 질문에 초점을 맞추고 있어, 다양한 질문 유형과 데이터 유형에 대한 추가적인 테스트가 필요합니다. 또한, 생성된 질문과 평가 지표가 실제 사용자에게 얼마나 유효한지 검증하는 과정이 요구됩니다.
Microsoft Research 팀은 이러한 한계를 극복하기 위해 더 로컬한 RAG 접근법과 하이브리드 RAG를 개발하는 방향으로 연구를 확장할 계획입니다. 이는 사용자 쿼리와 그래프 주석을 임베딩 기반으로 매칭하거나, 기존의 map-reduce 요약 매커니즘을 결합하는 방식으로 이루어질 것입니다.
Graph RAG는 텍스트 데이터를 처리하고 질문에 답변하는 방식에 있어 새로운 가능성을 열어줍니다. 기존의 단순 RAG와 비교했을 때, Graph RAG는 포괄성과 다양성 측면에서 뛰어난 성능을 보여주며, 효율성과 정확성에서도 강점을 가지고 있습니다. 특히, 동일한 데이터셋에 대해 많은 전역적 질문이 필요한 상황에서 Graph RAG는 훨씬 적은 토큰 비용으로 높은 품질의 답변을 제공할 수 있습니다.
이 기술은 앞으로 더 많은 데이터 유형과 질문 유형에 적용될 수 있으며, 정보 처리와 이해의 새로운 시대를 열어갈 것입니다. Graph RAG는 단순한 기술 그 이상으로, 우리가 데이터를 바라보는 방식과 질문에 답변하는 방식을 근본적으로 변화시키는 혁신적 도구로 자리 잡을 것입니다.
Made with Slashpage