λ³Έ λ
Όλ¬Έμ νμ¬ λ리 μ¬μ©λλ Vision-Language Model (VLM)μ΄ μκ° λ°μ΄ν°λ₯Ό μΆ©μ€νκ² μ’
ν©νμ§ λͺ»νκ³ , μΈμ΄ μ¬μ μ 보μ μμ‘΄νμ¬ μκ° μ 보μ νκ³λ₯Ό μ°ννλ "κΈ°λ₯μ λ§Ήμ " λ¬Έμ λ₯Ό μ§μ ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ°μ΄ν° μ κ±° λμ μλ―Έ μ 보 μ λ¬μ ν΅ν΄ μκ° μ 보μ κ°μΉλ₯Ό μΈ‘μ νλ "Expense of Seeing" κ°λ
κ³Ό μλ‘μ΄ νκ° μ§ν(Toll, Curse, Fallacy of Seeing, Semantic Sufficiency Criterion)λ₯Ό μ μν©λλ€. λν, μΈμ΄ λͺ¨λΈμ΄ λ°μ ν μλ‘ μκ° μ 보μ λ³λͺ© νμμΌλ‘ μΈν νλν°κ° μ¦κ°ν μ μλ€λ "Divergence Law of Multimodal Scaling" κ°μ€μ μ μνλ©°, ν₯ν VLM μ°κ΅¬ λ°©ν₯μ μ§μ ν λ©ν°λͺ¨λ¬ μΆλ‘ μΌλ‘ μ νν΄μΌ ν¨μ μ£Όμ₯ν©λλ€.