Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HiChunk: Evaluating and Enhancing Retrieval-Augmented Generation with Hierarchical Chunking

Created by
  • Haebom

作者

Wensheng Lu, Keyu Chen, Ruizhi Qiao, Xing Sun

HiCBench: A Benchmark for Evaluating Document Chunking in Retrieval-Augmented Generation

概要

本論文は、外部の知識ソースを統合して言語モデルの応答能力を向上させる、Retrieval-Augmented Generation(RAG)システムの重要な部分である文書チャンク分割の効果的な評価ツールが不足していることを指摘しています。既存のRAG評価ベンチマークは、証拠の疎性のために文書チャンク分割品質を評価するのに不適切であるという分析に基づいて、手動でコメント化された多段階文書チャンク分割点、合成された証拠密集質問回答(QA)ペア、および対応する証拠ソースを含むHiCBenchを提案する。さらに、微調整されたLLMに基づいてオートマージ検索アルゴリズムと組み合わせた多段階文書構造化フレームワークであるHiChunkフレームワークを導入し、検索品質を向上させました。実験により、HiCBenchはRAGパイプライン全体のさまざまなチャンク分割方法の効果を効果的に評価し、HiChunkは合理的な時間内により良いチャンク分割品質を達成し、RAGシステムの全体的なパフォーマンスを向上させました。

Takeaways、Limitations

Takeaways:
RAGシステムにおける文書チャンク分割の効果的な評価のための新しいベンチマークであるHiCBenchを提案。
HiCBenchには、手動でコメント化されたマルチレベルドキュメントチャンク分割ポイント、合成された証拠の密集QAペア、および証拠ソースが含まれています。
HiChunkフレームワークを通じてドキュメントチャンクの分割品質を向上させ、RAGシステムの全体的なパフォーマンスを向上させます。
HiCBenchはRAGパイプラインにおける様々なチャンク分割法の影響を効果的に評価した。
Limitations:
論文に具体的なLimitationsは記載されていない。
👍