Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InkFM: A Foundational Model for Full-Page Online Handwritten Note Understanding

Created by
  • Haebom

저자

Anastasiia Fadeeva, Vincent Coriou, Diego Antognini, Claudiu Musat, Andrii Maksai

개요

InkFM이라는 전 페이지 필기 내용 분석을 위한 기초 모델을 소개합니다. 28개의 서로 다른 스크립트의 텍스트 인식, 수학식 인식, 페이지를 텍스트와 그림과 같은 개별 요소로 분할하는 기능을 결합하여 다양한 작업에 대해 훈련되었습니다. docTR과 같은 공개 기준보다 우수한 최첨단 텍스트 라인 분할 품질을 달성하며, 공개 데이터셋으로 미세 조정 또는 LoRA 조정을 통해 페이지 분할 품질 향상, 최첨단 텍스트 인식(DeepWriting, CASIA, SCUT, Mathwriting 데이터셋) 및 스케치 분류(QuickDraw)를 달성합니다. 필기 입력을 사용하는 응용 프로그램 개발을 위한 강력한 기반을 제공합니다.

시사점, 한계점

시사점:
단일 모델 내에서 텍스트 인식, 수학식 인식, 페이지 분할 등 다양한 작업을 효과적으로 통합한 최초의 모델 제시.
docTR을 능가하는 최첨단 텍스트 라인 분할 성능 달성.
미세 조정 또는 LoRA 조정을 통해 다양한 데이터셋에서 최첨단 성능 달성.
필기 입력 기반 응용 프로그램 개발을 위한 강력한 기반 제공.
한계점:
구체적인 한계점이나 성능 저하에 대한 언급이 부족함.
모델의 훈련 데이터 다양성 및 크기에 대한 자세한 정보 부족.
실제 응용 프로그램에 적용 시 발생할 수 있는 문제점에 대한 논의 부족.
👍