λ³Έ μ°κ΅¬λ Vision-Language Model(VLM) κΈ°λ° μΉ μμ΄μ νΈκ° μμμ μΈν°νμ΄μ€μ μ·¨μ½νλ€λ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, μμμ νμ§ λ° νκ° νλ μμν¬μΈ DUDEλ₯Ό μ μν©λλ€. DUDEλ νμ΄λΈλ¦¬λ 보μ νμ΅, λΉλμΉ νλν°, κ²½ν μμ½μ ν΅ν΄ μ€ν¨ ν¨ν΄μ νμ΅νμ¬ μμ΄μ νΈμ μμμ μΈν°νμ΄μ€ λμ λ₯λ ₯μ ν₯μμν΅λλ€. μ μλ DUDEλ 53.8%μ μμμ μ·¨μ½μ± κ°μμ ν¨κ» μμ
μ±λ₯μ μ μ§νλ μ±κ³Όλ₯Ό 보μμ΅λλ€.