Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Created by
  • Haebom

저자

Xiao-Hui Li, Fei Yin, Cheng-Lin Liu

개요

DocSAM은 다양한 문서 이미지 분할 작업(문서 레이아웃 분석, 다중 입자 텍스트 분할, 표 구조 인식 등)을 위한 변환기 기반의 통합 프레임워크입니다. 기존 방법들이 각 작업을 개별적으로 처리하여 일반화 능력이 제한적이고 자원 낭비가 발생하는 문제를 해결하기 위해, DocSAM은 인스턴스 분할과 의미 분할을 결합하여 이러한 작업들을 모델링합니다. Sentence-BERT를 사용하여 각 데이터셋의 카테고리 이름을 의미 쿼리로 매핑하고, 이를 인스턴스 쿼리와 어텐션 메커니즘을 통해 상호 작용시켜 이미지 특징과 크로스 어텐션을 수행하여 인스턴스 및 의미 분할 마스크를 예측합니다. 인스턴스 카테고리는 인스턴스 쿼리와 의미 쿼리 간의 내적을 계산하고 점수의 소프트맥스 정규화를 통해 예측합니다. 이를 통해 이종 데이터셋에서 공동 학습이 가능하여 강건성과 일반화 능력을 향상시키고 계산 및 저장 자원을 절감합니다. 실험 결과, DocSAM은 정확성, 효율성, 적응성 측면에서 기존 방법들을 능가하는 것으로 나타났습니다.

시사점, 한계점

시사점:
다양한 문서 이미지 분할 작업에 대한 통합 프레임워크 제공
이종 데이터셋에 대한 공동 학습을 통한 강건성 및 일반화 능력 향상
계산 및 저장 자원 절감
기존 방법 대비 향상된 정확성, 효율성, 적응성
한계점:
논문에서는 구체적인 한계점이 언급되지 않음. 추가적인 실험 및 분석을 통해 한계점을 규명할 필요가 있음.
특정 유형의 문서 또는 복잡한 레이아웃에 대한 일반화 성능 평가가 필요함.
👍