Sign In

GLYPH-SR: Can We Achieve Both High-Quality Image Super-Resolution and High-Fidelity Text Recovery via VLM-guided Latent Diffusion Model?

Created by
  • Haebom
Category
Empty

저자

Mingyu Sung, Seungjae Ham, Kangwoo Kim, Yeokyoung Yoon, Sangseok Yun, Il-Min Kim, Jae-Mo Kang

개요

본 논문은 이미지 초해상도(SR) 기술의 실용적인 적용을 위해 텍스트 가독성과 시각적 품질을 동시에 개선하는 것을 목표로 하는 GLYPH-SR을 제안한다. GLYPH-SR은 OCR 데이터를 활용한 텍스트-SR 퓨전 ControlNet과 텍스트 및 장면 중심의 가이드를 번갈아 사용하는 ping-pong 스케줄러를 통해 작동한다. SVT, SCUT-CTW1500, CUTE80 데이터셋에서 x4 및 x8 배율로 실험한 결과, GLYPH-SR은 OCR F1 점수를 최대 +15.18% 향상시키면서도 경쟁력 있는 시각적 품질을 유지함을 입증했다.

시사점, 한계점

시사점:
이미지 초해상도 분야에서 텍스트 가독성과 시각적 품질을 동시에 고려하는 새로운 프레임워크 제시
실제 장면 텍스트 복원을 위한 특화된 모델 구조 및 훈련 방법론 제시
OCR 성능 향상을 통해 실질적인 이미지 분석 및 인식 시스템의 성능 향상 가능성 제시
한계점:
구체적인 성능 비교 대상 및 실험 환경에 대한 추가 정보 부족
다른 SR 기술과의 비교 분석 및 일반화 성능 평가 필요
복잡한 자연 환경에서의 텍스트 복원에 대한 추가적인 연구 필요
👍