λ³Έ λ
Όλ¬Έμ Vision-Language λͺ¨λΈ(VLM)μ΄ μ
λ ₯ μ΄λ―Έμ§μ μλ λ΄μ©μ μ€λͺ
νλ νκ° νμμ κ·Όλ³Έ μμΈμ΄ μκ°μ μλ² λ©κ³Ό ν
μ€νΈ λ€ν체 κ°μ κ³Όλν κΈ°ννμ μ λ ¬μ μμμ λ°κ²¬νμ΅λλ€. μ΄λ¬ν κ³Όλν μ λ ¬μ μΈμ΄μ νΈν₯μ μκ°μ μ¦κ±°λ³΄λ€ μ°μ μνλ©°, μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλ λ°©λ²λ‘ μ μΈμ΄μ νΈν₯μ΄ μ§μ€λ κ³ μ λ²‘ν° κ³΅κ°μ μκ°μ ννμμ μ κ±°νλ κ²μ
λλ€. κ·Έ κ²°κ³Ό, μ μλ λ°©λ²μ νκ° νμμ ν¬κ² μ€μ΄κ³ μ₯λ¬Έ μΊ‘μ
λ μ±λ₯μ ν₯μμμΌ°μ΅λλ€.