haebom
Sign In
Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou
π‘ κ°μ
κΈ°μ‘΄μ μκ° ν ν¬λμ΄μ λ€μ μ¬μ νμ΅λ λΉμ μΈμ½λμ λ§μ§λ§ μΈ΅ νΉμ§λ§μ μ¬μ©νμ¬ κ³μΈ΅μ μ 보λ₯Ό μΆ©λΆν νμ©νμ§ λͺ»νμ΅λλ€. λ³Έ λ Όλ¬Έμ λ§μ§λ§ μΈ΅μ ν¬μλμ΄ μ¬λΌμ§λ μ μμ€ μκ°μ λν μΌμ 볡μνκΈ° μν΄ μ€κ° μΈ΅ νΉμ§λ€μ λͺ μμ μΌλ‘ μ΅ν©νλ DRoRAE (Depth-Routed Representation AutoEncoder)λ₯Ό μ μν©λλ€. DRoRAEλ μλμ§ μ μ½ λΌμ°ν κ³Ό μ μ§μ 보μ μ ν΅ν΄ λͺ¨λ μΈμ½λ μΈ΅μ μ μμ μΌλ‘ ν΅ν©νμ¬ λμ½λμ νΈνλλ νλΆν μ μ¬ ννμ μμ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
λ€μΈ΅ νΉμ§ μ΅ν©μ μ€μμ±
: κΈ°μ‘΄ λ°©μλ€μ΄ λμΉκ³ μλ μ€κ° μΈ΅μ νλΆν κ³μΈ΅μ μ 보λ₯Ό νμ©νμ¬ μκ°μ μ¬κ΅¬μ± λ° μμ± νμ§μ ν¬κ² ν₯μμν¬ μ μμμ μ μ¦νμ΅λλ€.
β’
μλ‘μ΄ μ€μΌμΌλ§ λ²μΉ λ°κ²¬
: μ΅ν© λ₯λ ₯κ³Ό μ¬κ΅¬μ± νμ§ κ°μ λ‘κ·Έ μ νμ μ€μΌμΌλ§ λ²μΉμ λ°κ²¬νμ¬, NLPμ μ΄ν ν¬κΈ°μ²λΌ μκ° ν ν¬λμ΄μ μ 'νν νλΆν¨'μ΄λΌλ μμΈ‘ κ°λ₯ν νμ₯ μ°¨μμ μ μνμ΅λλ€.
β’
νκ³μ /ν₯ν κ³Όμ
: μ μλ DRoRAEλ κ°λ³μ§λ§, μ΅ν© λͺ¨λ μ체μ 볡μ‘μ±κ³Ό νμ΅ μ λ΅μ μΈ λ¨κ³ λΆν μ΄ κΈ°μ‘΄ λ°©μμ λΉν΄ νμ΅ κ³Όμ μ λ€μ 볡μ‘νκ² λ§λ€ μ μμ΅λλ€. λν, μ μλ μ€μΌμΌλ§ λ²μΉμ΄ λͺ¨λ μκ° ν ν¬λμ΄μ λͺ¨λΈμ μΌλ°νλλμ§μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage