Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

Created by
  • Haebom

저자

Vishesh Tripathi, Tanmay Odapally, Indraneel Das, Uday Allu, Biddwan Ahmed

개요

본 논문은 기존의 텍스트 기반 청크화 방식의 한계를 극복하기 위해 대규모 다중 모달 모델(LMMs)을 활용한 새로운 다중 모달 문서 청크화 방식을 제시합니다. 이 방법은 PDF 문서를 페이지 단위 배치로 처리하면서 배치 간 문맥을 유지하여 여러 페이지에 걸친 표, 임베디드 시각 요소, 절차적 콘텐츠를 정확하게 처리합니다. 수동으로 작성된 질문이 포함된 PDF 문서 데이터셋을 사용하여 평가한 결과, 기존 RAG 시스템에 비해 청크 품질과 RAG 성능이 향상됨을 보였으며, 문서 구조와 의미적 일관성 유지 측면에서 우수함을 보여줍니다.

시사점, 한계점

시사점:
LMMs를 활용한 다중 모달 문서 청크화 방식은 복잡한 구조의 문서 처리에 효과적임을 보임.
페이지 경계를 넘나드는 문맥 정보 유지로 RAG 성능 향상에 기여.
다중 페이지 테이블, 임베디드 시각 요소 등을 효과적으로 처리 가능.
기존 텍스트 기반 청크화 방식보다 향상된 문서 구조 및 의미적 일관성 유지.
한계점:
제시된 방법의 성능 평가는 특정 데이터셋에 국한됨. 다양한 유형의 PDF 문서에 대한 일반화 성능 검증 필요.
LMMs 활용으로 인한 높은 계산 자원 요구량.
사용된 LMM 모델의 특성에 따라 성능이 영향을 받을 수 있음.
👍