Sign In

ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Philippe Hansen-Estruch, Jiahui Chen, Vivek Ramanujan, Orr Zohar, Yan Ping, Animesh Sinha, Markos Georgopoulos, Edgar Schoenfeld, Ji Hou, Felix Juefei-Xu, Sriram Vishwanath, Ali Thabet

πŸ’‘ κ°œμš”

λ³Έ 논문은 이미지 ν† ν¬λ‚˜μ΄μ €λ‘œμ„œ Vision Transformer (ViT) μ˜€ν† μΈμ½”λ”μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•œ ViTok-v2λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ViTok-v2λŠ” NaFlexλ₯Ό 톡해 원본 해상도λ₯Ό μ§€μ›ν•˜μ—¬ λ‹€μ–‘ν•œ 해상도와 μ’…νš‘λΉ„μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κ³ , DINOv3 지각 손싀을 λ„μž…ν•˜μ—¬ μ•ˆμ •μ μΈ λŒ€κ·œλͺ¨ ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. 50μ–΅ 개 λ§€κ°œλ³€μˆ˜λ‘œ ν™•μž₯된 ViTok-v2λŠ” μ§€κΈˆκΉŒμ§€ κ°€μž₯ 큰 이미지 μ˜€ν† μΈμ½”λ”λ‘œμ„œ, λ‹€μ–‘ν•œ ν•΄μƒλ„μ—μ„œ κΈ°μ‘΄ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 λŠ₯κ°€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ViTok-v2λŠ” NaFlex와 DINOv3 지각 손싀을 톡해 이미지 μ˜€ν† μΈμ½”λ”μ˜ 해상도 μΌλ°˜ν™” 및 μ•ˆμ •μ  ν™•μž₯에 λŒ€ν•œ μ£Όμš” λ‚œμ œλ₯Ό ν•΄κ²°ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ˜€ν† μΈμ½”λ”μ™€ 생성 λͺ¨λΈμ˜ λ™μ‹œ ν™•μž₯을 톡해 μž¬κ΅¬μ„±-생성 νŠΈλ ˆμ΄λ“œμ˜€ν”„μ˜ νŒŒλ ˆν†  ν”„λ‘ ν‹°μ–΄λ₯Ό κ°œμ„ ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
50μ–΅ 개의 λ§€κ°œλ³€μˆ˜λ‘œ ν™•μž₯ κ°€λŠ₯ν•œ ViTok-v2λŠ” λŒ€κ·œλͺ¨ 이미지 μ˜€ν† μΈμ½”λ” 연ꡬ에 μ€‘μš”ν•œ 진전을 μ΄λ£¨μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ‹€μ–‘ν•œ 데이터셋 및 손싀 ν•¨μˆ˜ 쑰합을 νƒμƒ‰ν•˜μ—¬ μ„±λŠ₯을 λ”μš± μ΅œμ ν™”ν•  수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.
πŸ‘