Sign In

Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription

Created by
  • Haebom
Category
Empty

μ €μž

Benjamin Gutteridge, Matthew Thomas Jackson, Toni Kukurin, Xiaowen Dong

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” ν•„κΈ° λ¬Έμ„œμ˜ 닀쀑 νŽ˜μ΄μ§€ 전사에 λŒ€ν•œ μ œλ‘œμƒ·(zero-shot) μ ‘κ·Ό 방식을 νƒκ΅¬ν•˜λ©°, 기쑴의 νŽ˜μ΄μ§€ λ‹¨μœ„ 처리 방식을 λ„˜μ–΄ νŽ˜μ΄μ§€ κ°„ κ³΅μœ λ˜λŠ” λ¬Έλ§₯(λ‚΄μš©, 필체 μŠ€νƒ€μΌ)을 ν™œμš©ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. OCR, LLM ν›„μ²˜λ¦¬, MLLM 쒅단간 전사 λ“± λ‹€μ–‘ν•œ 방법을 μ‘°ν•©ν•˜κ³ , νŽ˜μ΄μ§€ κ°„ 정보 곡유λ₯Ό μ΅œλŒ€ν™”ν•˜λ©΄μ„œλ„ ν”„λ‘¬ν”„νŠΈ λ³΅μž‘μ„±μ„ μ΅œμ†Œν™”ν•˜λŠ” μƒˆλ‘œμš΄ ν”„λ‘¬ν”„νŒ… μ „λž΅μΈ OCR+PAGE-1κ³Ό OCR+PAGE-N을 μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν•„κΈ° λ¬Έμ„œ 전사에 μžˆμ–΄ νŽ˜μ΄μ§€ κ°„ λ¬Έλ§₯ 곡유의 μ€‘μš”μ„±μ„ 보여주며, MLLM의 닀쀑 λͺ¨λ‹¬λ¦¬ν‹° ν™œμš© κ°€λŠ₯성을 μž…μ¦ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ OCR+PAGE-N μ „λž΅μ΄ κΈ°μ‘΄ 방법 λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 보여주며, μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ μ œλ‘œμƒ· ν•„κΈ° λ¬Έμ„œ 전사 κ°€λŠ₯성을 λ†’μž…λ‹ˆλ‹€.
β€’
Malvern-Hills와 같은 μƒˆλ‘œμš΄ 벀치마크 데이터셋을 κ΅¬μΆ•ν•˜μ—¬ ν•΄λ‹Ή λΆ„μ•Όμ˜ 연ꡬ λ°œμ „μ— κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
닀쀑 νŽ˜μ΄μ§€ μ „μ‚¬μ—μ„œμ˜ ν”„λ‘¬ν”„νŠΈ λ³΅μž‘μ„±κ³Ό μ„±λŠ₯ κ°„μ˜ κ· ν˜•μ μ„ μ°ΎλŠ” 것이 μ—¬μ „νžˆ μ€‘μš”ν•œ 과제둜 λ‚¨μ•„μžˆμœΌλ©°, 더 λ³΅μž‘ν•˜κ±°λ‚˜ κΈ΄ λ¬Έμ„œμ— λŒ€ν•œ ν™•μž₯μ„± 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘