Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation

Created by
  • Haebom

저자

Yuyang Dong, Nobuhiro Ueda, Krisztian Boros, Daiki Ito, Takuya Sera, Masafumi Oyamada

개요

본 논문은 시각적으로 풍부한 문서를 다루는 검색 증강 생성(RAG) 시스템을 향상시키는 새로운 접근 방식인 SCAN(Semantic Document Layout Analysis)을 제시합니다. SCAN은 대규모 언어 모델(LLM)과 시각-언어 모델(VLM)을 활용하여 문서 구성 요소를 의미적 세분성을 고려하여 식별함으로써 맥락 보존과 처리 효율 간의 균형을 맞춥니다. 이는 문서를 연속적인 구성 요소를 포함하는 일관된 영역으로 나누는 조립형 의미론적 접근 방식을 사용하며, 정교한 주석 데이터를 사용하여 객체 탐지 모델을 미세 조정하여 훈련되었습니다. 영어 및 일본어 데이터셋에 대한 실험 결과, SCAN을 적용하면 텍스트 기반 RAG 성능은 최대 9.0%, 시각적 RAG 성능은 최대 6.4% 향상되어 기존 방식 및 상용 문서 처리 솔루션을 능가함을 보여줍니다.

시사점, 한계점

시사점:
VLM 친화적인 접근 방식으로 시각적으로 풍부한 문서를 처리하는 RAG 시스템의 성능을 향상시킬 수 있음을 보여줌.
텍스트 및 시각적 RAG 성능 모두에서 기존 방식 및 상용 솔루션을 능가하는 성능 향상을 달성.
조립형 의미론적 접근 방식을 통해 맥락 보존과 처리 효율 간의 균형을 효과적으로 달성.
영어 및 일본어 데이터셋에서의 실험 결과를 통해 접근 방식의 일반성을 확인.
한계점:
특정 주석 데이터셋에 의존적인 모델 성능. 다양한 유형의 문서에 대한 일반화 성능 평가 필요.
다양한 언어에 대한 추가적인 실험 및 평가가 필요.
SCAN 모델의 계산 비용 및 처리 속도에 대한 자세한 분석이 부족.
👍