본 논문은 시각적으로 풍부한 문서(VRD) 응용 분야, 특히 문서 레이아웃 분석(DLA)과 문서 이미지 분류(DIC)에 대한 지식 증류(KD)를 탐구합니다. VRD 연구는 점점 더 정교하고 복잡한 모델에 의존하지만, 모델 압축을 통한 효율성 연구는 간과되어 왔습니다. 본 연구는 더욱 효율적이고 성능이 뛰어난 모델을 더 큰 작업 파이프라인 내에서 필수적인 문서 이해(DU) 작업에 적용하기 위한 KD 실험 방법론을 설계합니다. 다양한 아키텍처(ResNet, ViT, DiT)와 용량(base, small, tiny)을 가진 백본 간의 지식 증류를 위해 KD 전략(응답 기반, 특징 기반)을 신중하게 선택했습니다. 교사-학생 지식 차이에 영향을 미치는 요인을 연구하여 조정된 일반 KD, MSE, 적절한 프로젝터를 사용한 SimKD와 같은 일부 방법이 지도 학습 학생 모델보다 일관되게 성능이 우수하다는 것을 발견했습니다. 또한, 공변량 이동과 제로샷 레이아웃 인식 문서 시각적 질문 응답(DocVQA)에 대한 증류된 DLA 모델의 강건성을 평가하기 위해 다운스트림 작업 설정을 설계했습니다. DLA-KD 실험 결과, 예측할 수 없는 방식으로 다운스트림 강건성으로 이어지는 큰 mAP 지식 차이가 발생하여, 더 효율적으로 의미있는 문서 레이아웃 인식을 얻는 방법을 추가로 탐구해야 할 필요성을 강조합니다.