Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hybrid CNN-ViT Framework for Motion-Blurred Scene Text Restoration

Created by
  • Haebom
Category
Empty

저자

Umar Rashid (University of Engineering & Technology, New Campus, Lahore, Pakistan), Muhammad Arslan Arshad (University of Engineering & Technology, New Campus, Lahore, Pakistan), Ghulam Ahmad (University of Engineering & Technology, New Campus, Lahore, Pakistan), Muhammad Zeeshan Anjum (University of Engineering & Technology, New Campus, Lahore, Pakistan), Rizwan Khan (University of Engineering & Technology, New Campus, Lahore, Pakistan), Muhammad Akmal (Sheffield Hallam University, Sheffield, UK)

개요

장면 텍스트 이미지의 모션 블러는 가독성을 심각하게 저해하고 자율 주행, 문서 디지털화, 시각 정보 검색과 같은 컴퓨터 비전 작업의 신뢰성을 방해합니다. 본 논문에서는 CNN(Convolutional Neural Networks)과 ViT(Vision Transformers)를 결합하여 로컬 특징 추출과 전역 컨텍스트 추론을 모두 활용하는 하이브리드 딥 러닝 프레임워크를 제안합니다. CNN 기반 인코더-디코더를 사용하여 구조적 세부 정보를 보존하고, 변환기 모듈을 통해 자체 주의를 기울여 전역 인식을 향상시킵니다. TextOCR에서 파생된 훈련 데이터 세트를 사용하며, 여러 크기와 방향의 현실적인 모션 블러 커널을 사용하여 합성적으로 흐리게 처리된 버전을 사용합니다. MAE, MSE, 지각 유사도 및 구조적 유사도(SSIM)를 통합하는 복합 손실을 통해 모델 최적화를 수행합니다.

시사점, 한계점

시사점:
CNN-ViT 하이브리드 설계를 통해 모션 블러 처리된 장면 텍스트 복원에 효과적임을 입증함.
PSNR 32.20 dB, SSIM 0.934를 달성하여 우수한 성능을 보임.
283만 개의 파라미터와 61ms의 평균 추론 시간으로 경량화 및 계산 효율성을 확보하여 실제 적용 가능성을 제시함.
한계점:
제시된 한계점은 논문 내용에 직접적으로 언급되지 않음. (논문의 내용 요약만 제공되어 있으므로)
👍