GLYPH-SR: Can We Achieve Both High-Quality Image Super-Resolution and High-Fidelity Text Recovery via VLM-guided Latent Diffusion Model?
Created by
Haebom
Category
Empty
저자
Mingyu Sung, Seungjae Ham, Kangwoo Kim, Yeokyoung Yoon, Sangseok Yun, Il-Min Kim, Jae-Mo Kang
개요
본 논문은 이미지 초해상도(SR) 기술의 실용적인 적용을 위해 텍스트 가독성과 시각적 품질을 동시에 개선하는 것을 목표로 하는 GLYPH-SR을 제안한다. GLYPH-SR은 OCR 데이터를 활용한 텍스트-SR 퓨전 ControlNet과 텍스트 및 장면 중심의 가이드를 번갈아 사용하는 ping-pong 스케줄러를 통해 작동한다. SVT, SCUT-CTW1500, CUTE80 데이터셋에서 x4 및 x8 배율로 실험한 결과, GLYPH-SR은 OCR F1 점수를 최대 +15.18% 향상시키면서도 경쟁력 있는 시각적 품질을 유지함을 입증했다.
시사점, 한계점
•
시사점:
◦
이미지 초해상도 분야에서 텍스트 가독성과 시각적 품질을 동시에 고려하는 새로운 프레임워크 제시