Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DocShaDiffusion: Diffusion Model in Latent Space for Document Image Shadow Removal

Created by
  • Haebom

저자

Wenjie Liu, Bingshu Wang, Ze Wang, C. L. Philip Chen

개요

본 논문은 문서 이미지 향상 분야에서 중요한 과제인 문서 그림자 제거를 다룹니다. 기존 방법들은 일정한 색상 배경을 가진 그림자만 제거하고 색상 그림자는 무시하는 경향이 있습니다. 이를 해결하기 위해 본 논문에서는 잠재 공간에서 문서 이미지 그림자 제거를 위한 확산 모델인 DocShaDiffusion을 제안합니다. 픽셀 공간에서 잠재 공간으로 그림자 이미지를 변환하여 모델이 필수적인 특징을 더 쉽게 포착할 수 있도록 합니다. 색상 그림자 문제를 해결하기 위해 그림자 소프트 마스크 생성 모듈(SSGM)을 설계하여 정확한 그림자 마스크를 생성하고 그림자 영역에 특별히 노이즈를 추가합니다. 그림자 마스크의 안내에 따라 그림자 마스크 인식 유도 확산 모듈(SMGDM)을 제안하여 확산 및 잡음 제거 과정을 감독하여 문서 이미지에서 그림자를 제거합니다. 또한 문서 이미지의 세부 정보와 구조를 보존하기 위해 그림자에 강인한 지각 특징 손실을 제안합니다. 더불어, 대규모 합성 문서 색상 그림자 제거 데이터셋(SDCSRD)을 개발하여 현실적인 색상 그림자의 분포를 시뮬레이션하고 모델 학습에 대한 강력한 지원을 제공합니다. 세 개의 공개 데이터셋에 대한 실험을 통해 제안된 방법이 최첨단 기술보다 우수함을 검증했습니다. 코드와 데이터셋은 공개적으로 제공될 예정입니다.

시사점, 한계점

시사점:
잠재 공간 기반 확산 모델을 이용하여 문서 그림자 제거 성능 향상.
색상 그림자를 효과적으로 제거하는 새로운 모듈(SSGM, SMGDM) 제안.
그림자에 강인한 지각 특징 손실 함수를 통해 이미지 디테일 및 구조 보존.
대규모 합성 문서 색상 그림자 제거 데이터셋(SDCSRD) 공개.
기존 방법보다 우수한 성능을 보이는 것을 실험적으로 검증.
한계점:
합성 데이터셋에 대한 의존도: 실제 문서 이미지와의 차이로 인한 성능 저하 가능성.
극도로 복잡하거나 비정형적인 그림자에 대한 일반화 성능은 추가 연구 필요.
계산 비용: 확산 모델의 계산량이 클 수 있음.
👍