Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DistilDoc: Knowledge Distillation for Visually-Rich Document Applications

Created by
  • Haebom
Category
Empty

저자

Jordy Van Landeghem, Subhajit Maity, Ayan Banerjee, Matthew Blaschko, Marie-Francine Moens, Josep Llados, Sanket Biswas

개요

본 논문은 시각적으로 풍부한 문서(VRD) 응용 분야, 특히 문서 레이아웃 분석(DLA)과 문서 이미지 분류(DIC)에 대한 지식 증류(KD)를 탐구합니다. VRD 연구는 점점 더 정교하고 복잡한 모델에 의존하지만, 모델 압축을 통한 효율성 연구는 간과되어 왔습니다. 본 연구는 더욱 효율적이고 성능이 뛰어난 모델을 더 큰 작업 파이프라인 내에서 필수적인 문서 이해(DU) 작업에 적용하기 위한 KD 실험 방법론을 설계합니다. 다양한 아키텍처(ResNet, ViT, DiT)와 용량(base, small, tiny)을 가진 백본 간의 지식 증류를 위해 KD 전략(응답 기반, 특징 기반)을 신중하게 선택했습니다. 교사-학생 지식 차이에 영향을 미치는 요인을 연구하여 조정된 일반 KD, MSE, 적절한 프로젝터를 사용한 SimKD와 같은 일부 방법이 지도 학습 학생 모델보다 일관되게 성능이 우수하다는 것을 발견했습니다. 또한, 공변량 이동과 제로샷 레이아웃 인식 문서 시각적 질문 응답(DocVQA)에 대한 증류된 DLA 모델의 강건성을 평가하기 위해 다운스트림 작업 설정을 설계했습니다. DLA-KD 실험 결과, 예측할 수 없는 방식으로 다운스트림 강건성으로 이어지는 큰 mAP 지식 차이가 발생하여, 더 효율적으로 의미있는 문서 레이아웃 인식을 얻는 방법을 추가로 탐구해야 할 필요성을 강조합니다.

시사점, 한계점

시사점:
다양한 아키텍처와 용량의 백본을 사용한 지식 증류 전략을 통해 문서 이해 작업에서 효율적이고 성능이 뛰어난 모델을 얻을 수 있음을 보여줌.
특정 KD 방법(조정된 일반 KD, MSE, SimKD)이 지도 학습보다 우수한 성능을 보임.
다운스트림 작업 평가를 통해 증류된 모델의 강건성을 평가할 수 있는 방법 제시.
한계점:
DLA-KD 실험에서 예측 불가능한 다운스트림 강건성으로 이어지는 큰 mAP 지식 차이 발생. 더 효율적으로 의미있는 문서 레이아웃 인식을 얻는 방법에 대한 추가 연구 필요.
연구된 KD 전략과 아키텍처의 범위가 제한적일 수 있음.
다양한 유형의 문서 데이터에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
👍