Sign In

Vision Transformers for Zero-Shot Clustering of Animal Images: A Comparative Benchmarking Study

Created by
  • Haebom
Category
Empty

μ €μž

Hugo Markoff, Stefan Hein Bengtson, Michael {\O}rsted

πŸ’‘ κ°œμš”

이 논문은 μƒνƒœν•™ μ—°κ΅¬μ—μ„œ μˆ˜λ§Žμ€ λ ˆμ΄λΈ” μ—†λŠ” 동물 이미지 λΆ„λ₯˜μ˜ 병λͺ© ν˜„μƒμ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ΅œμ‹  Vision Transformer (ViT) λͺ¨λΈμ„ ν™œμš©ν•œ μ œλ‘œμƒ· ν΄λŸ¬μŠ€ν„°λ§ κ°€λŠ₯성을 νƒκ΅¬ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ ViT λͺ¨λΈ, 차원 μΆ•μ†Œ 기법, ν΄λŸ¬μŠ€ν„°λ§ μ•Œκ³ λ¦¬μ¦˜μ„ μ‘°ν•©ν•˜μ—¬ 60μ’…μ˜ 동물 이미지에 λŒ€ν•œ 포괄적인 λ²€μΉ˜λ§ˆν‚Ήμ„ μˆ˜ν–‰ν–ˆμœΌλ©°, 특히 DINOv3 μž„λ² λ”©κ³Ό t-SNE, 지도 ν•™μŠ΅ λ°©μ‹μ˜ 계측적 ν΄λŸ¬μŠ€ν„°λ§μ„ 톡해 거의 μ™„λ²½ν•œ μ’… μˆ˜μ€€ ν΄λŸ¬μŠ€ν„°λ§ μ„±λŠ₯(V-measure: 0.958)을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ œλ‘œμƒ· μ’… μˆ˜μ€€ ν΄λŸ¬μŠ€ν„°λ§ κ°€λŠ₯μ„± μž…μ¦: ViT 기반 λͺ¨λΈμ΄ λ ˆμ΄λΈ” μ—†λŠ” 동물 이미지λ₯Ό μ’… μˆ˜μ€€μœΌλ‘œ 효과적으둜 λΆ„λ₯˜ν•  수 μžˆμŒμ„ μž…μ¦ν•˜μ—¬ 생물 λ‹€μ–‘μ„± λͺ¨λ‹ˆν„°λ§μ˜ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
지도 ν•™μŠ΅ 및 비지도 ν•™μŠ΅ λ°©μ‹μ˜ μš°μˆ˜ν•œ μ„±λŠ₯: 지도 ν•™μŠ΅ 방식이 졜고 μ„±λŠ₯을 λ³΄μ˜€μ§€λ§Œ, 사전 지식 없이도 높은 μ„±λŠ₯을 λ‹¬μ„±ν•˜λŠ” 비지도 ν•™μŠ΅ λ°©μ‹μ˜ 잠재λ ₯을 보여주어 μ‹€μ§ˆμ μΈ 적용 κ°€λŠ₯성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ’… λ‚΄ 변이 탐색: μ˜λ„μ μΈ κ³Όμž‰ ν΄λŸ¬μŠ€ν„°λ§μ„ 톡해 μ’… λ‚΄μ˜ 성별, μ—°λ Ή, μ™Έν˜•μ  차이와 같은 μƒνƒœν•™μ μœΌλ‘œ 의미 μžˆλŠ” νŒ¨ν„΄μ„ μ‹ λ’°μ„± 있게 μΆ”μΆœν•  수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ : 1.14%의 이미지가 μ „λ¬Έκ°€ κ²€ν† κ°€ ν•„μš”ν•œ μ΄μƒμΉ˜λ‘œ λΆ„λ₯˜λ˜μ—ˆμœΌλ©°, νŠΉμ • λΆ„λ₯˜κ΅°μ΄λ‚˜ 데이터셋에 λŒ€ν•œ 졜적의 방법둠 선택을 μœ„ν•œ μΆ”κ°€ 연ꡬ 및 μΌλ°˜ν™”κ°€ ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘