Sign In

RVAFM: Re-parameterizing Vertical Attention Fusion Module for Handwritten Paragraph Text Recognition

Created by
  • Haebom
Category
Empty

저자

Jinhui Zheng, Zhiquan Liu, Yain-Whar Si, Jianqing Li, Xinyuan Zhang, Xiaofan Li, Haozhi Huang, Xueyuan Gong

개요

본 논문은 손글씨 단락 텍스트 인식(HPTR) 문제에 대한 새로운 모듈인 RVAFM(Re-parameterizing Vertical Attention Fusion Module)을 제안합니다. 기존의 VAN(Vertical Attention Network) 모델의 VAM(Vertical Attention Module)은 단일 분기 구조로 인해 학습 효율이 낮다는 한계를 가지는데, RVAFM은 학습 단계에서는 다중 분기 구조를 사용하여 효과적인 학습을 수행하고, 추론 단계에서는 단일 분기 구조를 사용하여 빠른 처리 속도를 달성합니다. 특히, RF(Re-parameterization Fusion)라는 특별한 융합 방법을 통해 다중 분기 구조에서 학습된 특징들을 정보 손실 없이 단일 분기 구조로 융합합니다. 결과적으로 IAM 단락 수준 테스트 세트에서 4.44%의 CER(Character Error Rate)과 14.37%의 WER(Word Error Rate)을 달성하였으며, VAN보다 추론 속도가 약간 더 빠릅니다.

시사점, 한계점

시사점:
다중 분기 구조를 활용한 효과적인 학습 및 단일 분기 구조를 통한 빠른 추론 속도를 동시에 달성하는 새로운 모듈 RVAFM을 제시.
기존 VAN 모델보다 향상된 성능(CER 4.44%, WER 14.37%)을 IAM 데이터셋에서 달성.
RF를 통한 정보 손실 없는 특징 융합 방법 제시.
한계점:
제안된 RVAFM 모듈의 성능 향상이 특정 데이터셋(IAM)에 국한될 가능성.
다른 손글씨 인식 모델들과의 비교 분석이 부족.
RF 방법의 일반화 가능성에 대한 추가적인 연구 필요.
👍