λ³Έ μ°κ΅¬λ μ€μΊλ μμ¬ λ¬Έκ±΄ ννλ‘λ§ μ‘΄μ¬νλ μ΄ν리μ μν μ°μ€λ¬Έμ ν
μ€νΈ μ¬κ΅¬μ± λ° μλ―Έ λΆμμ μ΄λ €μμ ν΄κ²°νκΈ° μν΄ Vision-Language Model (VLM) κΈ°λ° νμ΄νλΌμΈμ μ μν©λλ€. μ μλ νμ΄νλΌμΈμ μ λ¬Έ OCR λͺ¨λΈλ‘ ν
μ€νΈλ₯Ό μΆμΆνκ³ , μ΄ν λκ·λͺ¨ VLMμ΄ μκ°μ λ μ΄μμκ³Ό ν
μ€νΈ λ΄μ©μ ν¨κ» λΆμνμ¬ μ μ¬ μ€λ₯λ₯Ό μμ νκ³ , λ°μΈμ μλ³ λ° ν΄λΉ μ 보λ₯Ό μν μ§μ λ² μ΄μ€μ μ°λν©λλ€. μ€ν κ²°κ³Ό, κΈ°μ‘΄ λ°©μ λλΉ μ μ¬ νμ§κ³Ό λ°μΈμ νκΉ
μ νλκ° ν¬κ² ν₯μλμμ΅λλ€.