본 논문은 다중 모드 RAG(Retrieval Augmented Generation)를 위한 레이아웃 인식 그래프 모델링을 제시한다. 기존의 RAG 방법들이 주로 평면 텍스트 청크를 다루는 것과 달리, 제안된 방법은 그래프 구조를 사용하여 다중 모드 간의 관계를 고려한다. 이를 위해 문서 레이아웃 파싱을 기반으로 그래프 모델링 구조를 정의한다. 입력 문서의 구조는 텍스트 청크, 표, 그림의 연결과 함께 유지된다. 이러한 표현은 다중 모드의 정보를 필요로 하는 복잡한 질문을 처리할 수 있도록 한다. 그래프 모델링의 효율성을 확인하기 위해 강력한 구성 요소를 사용한 유연한 RAG 파이프라인을 개발하였다. 네 개의 벤치마크 테스트 세트에 대한 실험 결과는 RAG 파이프라인의 성능 향상을 위한 레이아웃 인식 모델링의 기여를 확인한다.