DocSAM은 다양한 문서 이미지 분할 작업(문서 레이아웃 분석, 다중 입자 텍스트 분할, 표 구조 인식 등)을 위한 변환기 기반의 통합 프레임워크입니다. 기존 방법들이 각 작업을 개별적으로 처리하여 일반화 능력이 제한적이고 자원 낭비가 발생하는 문제를 해결하기 위해, DocSAM은 인스턴스 분할과 의미 분할을 결합하여 이러한 작업들을 모델링합니다. Sentence-BERT를 사용하여 각 데이터셋의 카테고리 이름을 의미 쿼리로 매핑하고, 이를 인스턴스 쿼리와 어텐션 메커니즘을 통해 상호 작용시켜 이미지 특징과 크로스 어텐션을 수행하여 인스턴스 및 의미 분할 마스크를 예측합니다. 인스턴스 카테고리는 인스턴스 쿼리와 의미 쿼리 간의 내적을 계산하고 점수의 소프트맥스 정규화를 통해 예측합니다. 이를 통해 이종 데이터셋에서 공동 학습이 가능하여 강건성과 일반화 능력을 향상시키고 계산 및 저장 자원을 절감합니다. 실험 결과, DocSAM은 정확성, 효율성, 적응성 측면에서 기존 방법들을 능가하는 것으로 나타났습니다.