Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model

Created by
  • Haebom

저자

Zhanglin Wu, Tengfei Song, Ning Xie, Weidong Zhang, Pengfei Li, Shuang Wu, Chong Li, Junhao Zhu, Hao Yang

개요

본 논문은 제19회 국제 문서 분석 및 인식 학회(ICDAR2025)에서 개최된 "복잡한 레이아웃을 가진 문서 이미지 기계 번역" 경진 대회를 위해 화웨이 번역 서비스 센터(HW-TSC)가 제안한 기술 솔루션을 제시한다. 최신 오픈소스 대규모 비전-언어 모델(LVLM)을 활용하여, 다중 작업 학습과 지각 사고 과정을 결합한 훈련 프레임워크를 통해 종단 간 문서 번역 시스템을 개발하였다. 추론 단계에서는 최소 베이지안 디코딩과 후처리 전략을 적용하여 시스템의 번역 성능을 더욱 향상시켰다. 본 솔루션은 통합된 프레임워크 내에서 OCR 기반 및 OCR 없는 문서 이미지 번역 작업을 모두 다룬다. 본 논문에서는 훈련 방법, 추론 전략, LVLM 기본 모델, 훈련 데이터, 실험 설정 및 결과를 체계적으로 자세히 설명하여 문서 이미지 기계 번역에 대한 효과적인 접근 방식을 보여준다.

시사점, 한계점

시사점:
최신 LVLM을 활용한 종단 간 문서 이미지 번역 시스템 개발의 효과적인 접근 방식 제시.
다중 작업 학습과 지각 사고 과정을 결합한 훈련 프레임워크의 효용성 증명.
OCR 기반 및 OCR 없는 문서 이미지 번역 작업을 통합적으로 처리하는 시스템 구축.
최소 베이지안 디코딩과 후처리 전략을 통한 번역 성능 향상.
한계점:
구체적인 LVLM 모델의 종류 및 성능에 대한 상세한 정보 부족.
사용된 훈련 데이터의 규모와 질에 대한 자세한 설명 부족.
다른 최첨단 방법과의 비교 분석 부족.
실제 문서 이미지의 다양성과 복잡성에 대한 일반화 성능 평가 부족.
👍