Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HiChunk: Evaluating and Enhancing Retrieval-Augmented Generation with Hierarchical Chunking

Created by
  • Haebom

저자

Wensheng Lu, Keyu Chen, Ruizhi Qiao, Xing Sun

HiCBench: A Benchmark for Evaluating Document Chunking in Retrieval-Augmented Generation

개요

본 논문은 외부 지식 소스를 통합하여 언어 모델의 응답 능력을 향상시키는 Retrieval-Augmented Generation (RAG) 시스템에서 중요한 부분인 문서 청크 분할의 효과적인 평가 도구가 부족하다는 점을 지적한다. 기존 RAG 평가 벤치마크가 증거 희소성으로 인해 문서 청크 분할 품질을 평가하기에 부적합하다는 분석을 바탕으로, 수동으로 주석 처리된 다단계 문서 청크 분할 지점, 합성된 증거 밀집 질문 답변 (QA) 쌍 및 해당 증거 소스를 포함하는 HiCBench를 제안한다. 또한, 미세 조정된 LLM을 기반으로 하고 Auto-Merge 검색 알고리즘과 결합된 다단계 문서 구조화 프레임워크인 HiChunk 프레임워크를 도입하여 검색 품질을 향상시켰다. 실험을 통해 HiCBench가 전체 RAG 파이프라인에서 다양한 청크 분할 방법의 영향을 효과적으로 평가하며, HiChunk가 합리적인 시간 내에 더 나은 청크 분할 품질을 달성하여 RAG 시스템의 전반적인 성능을 향상시켰음을 입증한다.

시사점, 한계점

시사점:
RAG 시스템에서 문서 청크 분할의 효과적인 평가를 위한 새로운 벤치마크인 HiCBench를 제안.
HiCBench는 수동으로 주석 처리된 다단계 문서 청크 분할 지점, 합성된 증거 밀집 QA 쌍 및 증거 소스를 포함.
HiChunk 프레임워크를 통해 문서 청크 분할 품질을 향상시키고 RAG 시스템의 전반적인 성능을 개선.
HiCBench는 RAG 파이프라인에서 다양한 청크 분할 방법의 영향을 효과적으로 평가.
한계점:
논문에서 구체적인 한계점은 명시되지 않음.
👍