Sign In

Breaking Modality Heterogeneity in Low-Bit Quantization for Large Vision-Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yi Zhong, Haotong Qin, Xindong Zhang, Lei Zhang, Guolei Sun

πŸ’‘ κ°œμš”

λ³Έ 논문은 μžμ› μ œμ•½μ΄ μžˆλŠ” ν™˜κ²½μ—μ„œ Vision-Language Model(VLM)을 효율적으둜 λ°°ν¬ν•˜κΈ° μœ„ν•œ μ €λΉ„νŠΈ ν›„ν•™μŠ΅ μ–‘μžν™”(PTQ) 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ PTQ 방법은 ν…μŠ€νŠΈμ™€ λΉ„μ „ λͺ¨λ‹¬λ¦¬ν‹° κ°„μ˜ 이질적인 ν™œμ„±ν™” λΆ„ν¬λ‘œ 인해 VLM의 정확도λ₯Ό μ €ν•˜μ‹œν‚€λŠ” 문제λ₯Ό κ²ͺμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ œμ•ˆλœ SplitQλŠ” λͺ¨λ‹¬λ¦¬ν‹°λ³„ νŠΉμ΄κ°’ 채널을 효과적으둜 λΆ„λ¦¬ν•˜λŠ” MOCD λͺ¨λ“ˆκ³Ό λͺ¨λ‹¬λ¦¬ν‹° κ°„ 뢄포 차이λ₯Ό μ™„ν™”ν•˜λŠ” ACC λͺ¨λ“ˆμ„ ν¬ν•¨ν•˜λŠ” 채널 λΆ„ν•  기반 PTQ ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
VLM의 λͺ¨λ‹¬λ¦¬ν‹° μ΄μ§ˆμ„±μ„ 효과적으둜 κ΄€λ¦¬ν•˜μ—¬ μ €λΉ„νŠΈ μ–‘μžν™” μ‹œ 정확도 μ €ν•˜λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ MOCD 및 ACC λͺ¨λ“ˆμ€ κΈ°μ‘΄ 방법 λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 보이며, W3A3κ³Ό 같은 μ–΄λ €μš΄ μ–‘μžν™” μ„€μ •μ—μ„œλ„ 높은 정확도λ₯Ό μœ μ§€ν•¨μ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬κΉŒμ§€λŠ” ν…μŠ€νŠΈμ™€ λΉ„μ „ λͺ¨λ‹¬λ¦¬ν‹°μ— κ΅­ν•œλœ μ ‘κ·Ό 방식을 μ œμ•ˆν•˜λ©°, ν–₯ν›„ 더 λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό ν¬κ΄„ν•˜λŠ” 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘