Sign In

Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Donghwan Chi, Hyomin Kim, Yoonjin Oh, Yongjin Kim, Donghoon Lee, Daejin Jo, Jongmin Kim, Junyeob Baek, Sungjin Ahn, Sungwoong Kim

πŸ’‘ κ°œμš”

λ³Έ 논문은 객체 μ€‘μ‹¬μ˜ μ‹œκ° 토큰화λ₯Ό 톡해 λ©€ν‹°λͺ¨λ‹¬ κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈ(MLLM)의 μ‹œκ° 정보 이해 및 생성 λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” Slot-MLLM을 μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ MLLM의 μ‹œκ° 토큰화 방식이 전역적 κ°œλ…μ΄λ‚˜ κ· μΌν•œ 패치 μ²˜λ¦¬μ— κ΅­ν•œλ˜μ–΄ 객체 μˆ˜μ€€μ˜ μ„ΈλΆ€ 정보 이해 및 생성에 ν•œκ³„κ°€ μžˆλ‹€λŠ” 점을 κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, Q-Former, 디퓨전 디코더, μž”μ°¨ 벑터 μ–‘μžν™”λ₯Ό 기반으둜 객체 μ€‘μ‹¬μ˜ μ΄μ‚°ν™”λœ 슬둯 토큰을 μ„€κ³„ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 Slot-MLLM은 κ΅­μ†Œμ  μ‹œκ° μ„ΈλΆ€ 정보와 κ³ μˆ˜μ€€ μ˜λ―Έλ‘ μ„ λͺ¨λ‘ λ‹΄κ³  ν…μŠ€νŠΈ 데이터와 μ •λ ¬λ˜μ–΄, λ‹€μ–‘ν•œ λΉ„μ „-μ–Έμ–΄ μž‘μ—…μ—μ„œ 이전 토큰화 방식 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MLLMμ—μ„œ 객체 μˆ˜μ€€μ˜ μ‹œκ°μ  μ„ΈλΆ€ 정보λ₯Ό 효율적으둜 μΈμ½”λ”©ν•˜κ³  ν…μŠ€νŠΈμ™€ 톡합할 수 μžˆλŠ” μƒˆλ‘œμš΄ μ‹œκ° 토큰화 방법둠을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
객체 μ€‘μ‹¬μ˜ 슬둯 μ–΄ν…μ…˜μ„ MLLM에 μ μš©ν•˜κ³  μ‹€μ œ μžμ—° 이미지에 λŒ€ν•΄ μ„±κ³΅μ μœΌλ‘œ κ΅¬ν˜„ν•œ 졜초의 μ—°κ΅¬μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Slot-MLLM은 λ³΅μž‘ν•œ μ‹œκ°μ  이해와 생성이 μš”κ΅¬λ˜λŠ” λΉ„μ „-μ–Έμ–΄ μž‘μ—…μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ—°κ΅¬λŠ” ν›ˆλ ¨ λ°μ΄ν„°μ…‹μ˜ λ‹€μ–‘μ„± 및 νŠΉμ • 객체 μœ ν˜•μ— λŒ€ν•œ μΌλ°˜ν™” λŠ₯λ ₯ ν–₯상을 μœ„ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘