Sign In

Channel-wise Vector Quantization

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Min Li, Jiaqi Wang, Kaicheng Yu

πŸ’‘ κ°œμš”

λ³Έ 논문은 이미지 토큰화 νŒ¨λŸ¬λ‹€μž„μ„ 패치 κΈ°λ°˜μ—μ„œ 채널 기반으둜 μ „ν™˜ν•˜λŠ” Channel-wise Vector Quantization (CVQ)을 μ œμ•ˆν•©λ‹ˆλ‹€. CVQλŠ” 각 μ±„λ„μ˜ νŠΉμ§• 맡을 μ–‘μžν™”ν•˜μ—¬ 이미지λ₯Ό 곡간 패치의 κ²©μžλ³΄λ‹€λŠ” 이산적인 μ‹œκ°μ  λ””ν…ŒμΌ μˆ˜μ€€μœΌλ‘œ ν‘œν˜„ν•©λ‹ˆλ‹€. 이λ₯Ό 기반으둜 ν•˜λŠ” Channel-wise Autoregressive (CAR) λͺ¨λΈμ€ λ‹€μŒ 채널 예츑 방식을 톡해 ν…μŠ€νŠΈ-이미지 μƒμ„±μ—μ„œ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
이미지 토큰화 방식을 채널 λ‹¨μœ„λ‘œ λ³€κ²½ν•˜μ—¬ κΈ°μ‘΄ 패치 기반 방식 λŒ€λΉ„ μš°μˆ˜ν•œ μž¬κ΅¬μ„± ν’ˆμ§ˆμ„ λ‹¬μ„±ν•©λ‹ˆλ‹€.
β€’
채널별 순차적 μ˜ˆμΈ‘μ„ 톡해 전역적인 κ΅¬μ‘°μ—μ„œ λ―Έμ„Έν•œ λ””ν…ŒμΌκΉŒμ§€ μ μ§„μ μœΌλ‘œ ν’λΆ€ν•œ μ‹œκ°μ  정보λ₯Ό μƒμ„±ν•˜λŠ” μƒˆλ‘œμš΄ μžλ™νšŒκ·€ λͺ¨λΈμ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
16K μ΄μƒμ˜ λŒ€κ·œλͺ¨ μ½”λ“œλΆ ν¬κΈ°μ—μ„œλ„ 100%의 μ½”λ“œλΆ ν™œμš©λ₯ μ„ λ‹¬μ„±ν•˜λ©° νš¨μœ¨μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ CAR λͺ¨λΈμ€ ν…μŠ€νŠΈ-이미지 μƒμ„±μ—μ„œ 높은 DPG 및 GenEval 점수λ₯Ό κΈ°λ‘ν•˜λ©° νš¨κ³Όμ„±μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ˜ ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ κ³Όμ œλ‘œλŠ” λ‹€μ–‘ν•œ 데이터셋과 μž‘μ—…μ— λŒ€ν•œ CVQ 및 CAR λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯ 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘