본 논문은 시각적으로 풍부한 문서를 다루는 검색 증강 생성(RAG) 시스템을 향상시키는 새로운 접근 방식인 SCAN(Semantic Document Layout Analysis)을 제시합니다. SCAN은 대규모 언어 모델(LLM)과 시각-언어 모델(VLM)을 활용하여 문서 구성 요소를 의미적 세분성을 고려하여 식별함으로써 맥락 보존과 처리 효율 간의 균형을 맞춥니다. 이는 문서를 연속적인 구성 요소를 포함하는 일관된 영역으로 나누는 조립형 의미론적 접근 방식을 사용하며, 정교한 주석 데이터를 사용하여 객체 탐지 모델을 미세 조정하여 훈련되었습니다. 영어 및 일본어 데이터셋에 대한 실험 결과, SCAN을 적용하면 텍스트 기반 RAG 성능은 최대 9.0%, 시각적 RAG 성능은 최대 6.4% 향상되어 기존 방식 및 상용 문서 처리 솔루션을 능가함을 보여줍니다.