haebom
Sign In
Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Donghwan Chi, Hyomin Kim, Yoonjin Oh, Yongjin Kim, Donghoon Lee, Daejin Jo, Jongmin Kim, Junyeob Baek, Sungjin Ahn, Sungwoong Kim
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°μ²΄ μ€μ¬μ μκ° ν ν°νλ₯Ό ν΅ν΄ λ©ν°λͺ¨λ¬ κ±°λ μΈμ΄ λͺ¨λΈ(MLLM)μ μκ° μ 보 μ΄ν΄ λ° μμ± λ₯λ ₯μ ν₯μμν€λ Slot-MLLMμ μ μν©λλ€. κΈ°μ‘΄ MLLMμ μκ° ν ν°ν λ°©μμ΄ μ μμ κ°λ μ΄λ κ· μΌν ν¨μΉ μ²λ¦¬μ κ΅νλμ΄ κ°μ²΄ μμ€μ μΈλΆ μ 보 μ΄ν΄ λ° μμ±μ νκ³κ° μλ€λ μ μ 극볡νκΈ° μν΄, Q-Former, λν¨μ λμ½λ, μμ°¨ λ²‘ν° μμνλ₯Ό κΈ°λ°μΌλ‘ κ°μ²΄ μ€μ¬μ μ΄μ°νλ μ¬λ‘― ν ν°μ μ€κ³νμ΅λλ€. μ΄λ₯Ό ν΅ν΄ Slot-MLLMμ κ΅μμ μκ° μΈλΆ μ 보μ κ³ μμ€ μλ―Έλ‘ μ λͺ¨λ λ΄κ³ ν μ€νΈ λ°μ΄ν°μ μ λ ¬λμ΄, λ€μν λΉμ -μΈμ΄ μμ μμ μ΄μ ν ν°ν λ°©μ λλΉ μ°μν μ±λ₯μ 보μ λλ€.
π μμ¬μ λ° νκ³
β’
MLLMμμ κ°μ²΄ μμ€μ μκ°μ μΈλΆ μ 보λ₯Ό ν¨μ¨μ μΌλ‘ μΈμ½λ©νκ³ ν μ€νΈμ ν΅ν©ν μ μλ μλ‘μ΄ μκ° ν ν°ν λ°©λ²λ‘ μ μ μνμ΅λλ€.
β’
κ°μ²΄ μ€μ¬μ μ¬λ‘― μ΄ν μ μ MLLMμ μ μ©νκ³ μ€μ μμ° μ΄λ―Έμ§μ λν΄ μ±κ³΅μ μΌλ‘ ꡬνν μ΅μ΄μ μ°κ΅¬μ λλ€.
β’
μ μλ Slot-MLLMμ 볡μ‘ν μκ°μ μ΄ν΄μ μμ±μ΄ μꡬλλ λΉμ -μΈμ΄ μμ μμ μλΉν μ±λ₯ ν₯μμ λ¬μ±νμ΅λλ€.
β’
νμ¬ μ°κ΅¬λ νλ ¨ λ°μ΄ν°μ μ λ€μμ± λ° νΉμ κ°μ²΄ μ νμ λν μΌλ°ν λ₯λ ₯ ν₯μμ μν μΆκ° μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage