μ΄ λ
Όλ¬Έμ μνν μ°κ΅¬μμ μλ§μ λ μ΄λΈ μλ λλ¬Ό μ΄λ―Έμ§ λΆλ₯μ λ³λͺ© νμμ ν΄κ²°νκΈ° μν΄ μ΅μ Vision Transformer (ViT) λͺ¨λΈμ νμ©ν μ λ‘μ· ν΄λ¬μ€ν°λ§ κ°λ₯μ±μ νꡬν©λλ€. λ€μν ViT λͺ¨λΈ, μ°¨μ μΆμ κΈ°λ², ν΄λ¬μ€ν°λ§ μκ³ λ¦¬μ¦μ μ‘°ν©νμ¬ 60μ’
μ λλ¬Ό μ΄λ―Έμ§μ λν ν¬κ΄μ μΈ λ²€μΉλ§νΉμ μννμΌλ©°, νΉν DINOv3 μλ² λ©κ³Ό t-SNE, μ§λ νμ΅ λ°©μμ κ³μΈ΅μ ν΄λ¬μ€ν°λ§μ ν΅ν΄ κ±°μ μλ²½ν μ’
μμ€ ν΄λ¬μ€ν°λ§ μ±λ₯(V-measure: 0.958)μ λ¬μ±νμ΅λλ€.