DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model
Created by
Haebom
저자
Zhanglin Wu, Tengfei Song, Ning Xie, Weidong Zhang, Pengfei Li, Shuang Wu, Chong Li, Junhao Zhu, Hao Yang
개요
본 논문은 제19회 국제 문서 분석 및 인식 학회(ICDAR2025)에서 개최된 "복잡한 레이아웃을 가진 문서 이미지 기계 번역" 경진 대회를 위해 화웨이 번역 서비스 센터(HW-TSC)가 제안한 기술 솔루션을 제시한다. 최신 오픈소스 대규모 비전-언어 모델(LVLM)을 활용하여, 다중 작업 학습과 지각 사고 과정을 결합한 훈련 프레임워크를 통해 종단 간 문서 번역 시스템을 개발하였다. 추론 단계에서는 최소 베이지안 디코딩과 후처리 전략을 적용하여 시스템의 번역 성능을 더욱 향상시켰다. 본 솔루션은 통합된 프레임워크 내에서 OCR 기반 및 OCR 없는 문서 이미지 번역 작업을 모두 다룬다. 본 논문에서는 훈련 방법, 추론 전략, LVLM 기본 모델, 훈련 데이터, 실험 설정 및 결과를 체계적으로 자세히 설명하여 문서 이미지 기계 번역에 대한 효과적인 접근 방식을 보여준다.
시사점, 한계점
•
시사점:
◦
최신 LVLM을 활용한 종단 간 문서 이미지 번역 시스템 개발의 효과적인 접근 방식 제시.