Sign In

Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou

πŸ’‘ κ°œμš”

기쑴의 μ‹œκ° ν† ν¬λ‚˜μ΄μ €λ“€μ€ 사전 ν•™μŠ΅λœ λΉ„μ „ μΈμ½”λ”μ˜ λ§ˆμ§€λ§‰ μΈ΅ νŠΉμ§•λ§Œμ„ μ‚¬μš©ν•˜μ—¬ 계측적 정보λ₯Ό μΆ©λΆ„νžˆ ν™œμš©ν•˜μ§€ λͺ»ν–ˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 λ§ˆμ§€λ§‰ 측에 ν¬μ„λ˜μ–΄ μ‚¬λΌμ§€λŠ” μ €μˆ˜μ€€ μ‹œκ°μ  λ””ν…ŒμΌμ„ λ³΅μ›ν•˜κΈ° μœ„ν•΄ 쀑간 μΈ΅ νŠΉμ§•λ“€μ„ λͺ…μ‹œμ μœΌλ‘œ μœ΅ν•©ν•˜λŠ” DRoRAE (Depth-Routed Representation AutoEncoder)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DRoRAEλŠ” μ—λ„ˆμ§€ μ œμ•½ λΌμš°νŒ…κ³Ό 점진적 보정을 톡해 λͺ¨λ“  인코더 측을 μ μ‘μ μœΌλ‘œ ν†΅ν•©ν•˜μ—¬ 디코더와 ν˜Έν™˜λ˜λŠ” ν’λΆ€ν•œ 잠재 ν‘œν˜„μ„ μƒμ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ‹€μΈ΅ νŠΉμ§• μœ΅ν•©μ˜ μ€‘μš”μ„±: κΈ°μ‘΄ 방식듀이 λ†“μΉ˜κ³  있던 쀑간 측의 ν’λΆ€ν•œ 계측적 정보λ₯Ό ν™œμš©ν•˜μ—¬ μ‹œκ°μ  μž¬κ΅¬μ„± 및 생성 ν’ˆμ§ˆμ„ 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μƒˆλ‘œμš΄ μŠ€μΌ€μΌλ§ 법칙 발견: μœ΅ν•© λŠ₯λ ₯κ³Ό μž¬κ΅¬μ„± ν’ˆμ§ˆ κ°„μ˜ 둜그 μ„ ν˜•μ  μŠ€μΌ€μΌλ§ 법칙을 λ°œκ²¬ν•˜μ—¬, NLP의 μ–΄νœ˜ 크기처럼 μ‹œκ° ν† ν¬λ‚˜μ΄μ €μ˜ 'ν‘œν˜„ 풍뢀함'μ΄λΌλŠ” 예츑 κ°€λŠ₯ν•œ ν™•μž₯ 차원을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ /ν–₯ν›„ 과제: μ œμ•ˆλœ DRoRAEλŠ” κ°€λ³μ§€λ§Œ, μœ΅ν•© λͺ¨λ“ˆ 자체의 λ³΅μž‘μ„±κ³Ό ν•™μŠ΅ μ „λž΅μ˜ μ„Έ 단계 뢄할이 κΈ°μ‘΄ 방식에 λΉ„ν•΄ ν•™μŠ΅ 과정을 λ‹€μ†Œ λ³΅μž‘ν•˜κ²Œ λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, μ œμ•ˆλœ μŠ€μΌ€μΌλ§ 법칙이 λͺ¨λ“  μ‹œκ° ν† ν¬λ‚˜μ΄μ € λͺ¨λΈμ— μΌλ°˜ν™”λ˜λŠ”μ§€μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘